





























天 善 智能 创始 人 2 勇 。 
清 控 道口 资本 管理 有 限 公司 管理 合伙 人 钟 志 新 。 < 
深圳 纳 实 大 数据 技术 有 限 公司 CEO B 骏 。 na 数据 
斯 凯 奇 (中 国 ) 有 限 公司 CIO 李 宏 阳 。 = 

上 海 亦 策 软件 科技 有 限 公司 总 经 理 邓 强 勇 * 









dà Sparc k. 
SS Kkfka, 


PACHE 


HBASE 





Kettle 


Cloudera Hadoop 
大 数据 平台 实战 指南 


宋 立 桓 陈建平 x 


e H £, £ pt 


m sai 9 < 





Cloudera Hadoop 
大 数据 平台 实战 指南 


宋 立 桓 陈建平 x 


id d + £ wat 
北京 


内 容 简 介 


对 于 入 门 和 学 习 大 数据 技术 的 读者 来 说 ， 大 数据 技术 的 生态 圈 和 知识 体系 过 于 庞大 ， 可 能 还 没有 开始 学 
习 就 已 经 陷入 众多 的 陌生 名 词 和 泛泛 的 概念 中 。 本 书 的 切入 点 明确 而 清晰 ， 从 Hadoop 生态 系统 的 明星 
Cloudera 入 手 ， 逐 步 引 出 各 类 大 数据 基础 和 核心 应 用 框架 。 

本 书 分 为 18 章 ， 系 统 介 绍 Hadoop 生态 系统 大 数据 相关 的 知识 ， 包 括 大 数据 概述 、Cloudera Hadoop 平 
台 的 安装 部 署 、HDFS 分 布 式 文件 系统 、MapReduce 计算 框架 、 资 源 管理 调度 框架 YARN 、Hive 数据 仓库 、 
数据 迁移 工具 Sqoop、 分 布 式 数据 库 HBase、ZooKeeper 分 布 式 协调 服务 、 准 实时 分 析 系 统 Impala, HERE 
工具 Flume、 分 布 式 消息 系统 Kafka、ETL 工具 Kettle、Spark 计算 框架 等 内 容 ， 最 后 给 出 两 个 综合 实 操 案例 ， 
以 巩固 前 面 所 学 的 知识 点 。 

本 书 既 适 合 Hadoop 初学 者 、 大 数据 技术 工程 师 和 大 数据 技术 爱好 者 自学 使 用 ， 亦 可 作为 高 等 院 校 和 培 
训 机 构 大 数据 相关 课程 的 培训 用 书 。 


本 书 封面 贴 有 清华 大 学 出 版 社 防伪 标签 ， 无 标签 者 不 得 销售 。 
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推荐 序 一 


从 2013 年 起 大 数据 的 概念 在 国内 逐步 普及 ， 经 过 短 短 几 年 的 时 间 ， 相 关 的 技术 就 在 各 行 各 
业 有 了 深入 的 使 用 和 发 展 ， 并 且 越 来 越 多 的 企业 开始 重视 对 大 数据 项 目的 规划 和 建设 。 大 数据 的 
项 目 建设 是 以 IT 信息 化 部 门 为 主导 、 企 业 各 部 门 紧密 配合 、 企 业 高 层 驱动 的 一 个 持续 的 过 程 ， 
其 中 大 数据 技术 的 相关 人 才 尤 为 重要 。 


2013 年 ， 我 与 儿 位 志同道合 的 深耕 于 数据 领域 的 朋友 一 起 成 立 了 天 善 智能 。 至 今 ， 天 善 知 
能 已 经 成 为 国内 最 大 的 大 数据 、 商 业 智 能 BI、 人 工 智能 AI 的 垂直 社区 之 一 ， 来 自 于 百度 、 阿 里 
巴巴 、 腾 讯 、 微 软 、IBM、 京 东 等 国内 一 众 知名 公司 的 数据 专家 也 积极 地 活跃 在 我 们 的 社区 。 这 
些 专 家 广泛 地 参与 天 善 智 能 各 类 线 上 线 下 有 关 大 数据 技术 的 布道 活动 ， 他 们 用 自己 专业 的 知识 、 
精湛 的 技术 分 享 极 大 地 点 燃 了 广大 大 数据 技术 爱好 者 的 热情 , 共同 推动 了 大 数据 技术 在 国内 的 普 
及 和 发 展 。 


在 天 善 智能 的 成 长 过 程 中 , 我 也 有 幸 结识 了 很 多 来 自 各行 各 业 大 数据 技术 圈 的 朋友 ,其 中 就 
包括 本 书 的 两 位 作者 宋 立 桓 和 陈建平 。 宋 立 桓 老师 以 前 在 微软 工作 ， 由 于 我 以 前 也 是 微软 技术 的 
程序 开发 者 , 包括 之 后 在 工作 中 使 用 到 微软 商业 智能 BI 技术 ,因此 让 我 们 有 了 更 多 交流 的 话题 。 
之 后 ,， 宋 老师 去 腾讯 就 职 ， 从 大 数据 到 云 计算 ， 从 一 个 很 深 的 数据 底层 走向 另 一 个 更 深 的 架构 底 
层 ， 这 是 一 个 很 好 的 提升 和 发 展 。 建 平 来 自传 统 的 行业 ， 在 传统 行业 的 数据 升级 打 怪 过 程 中 不 断 
将 数据 运用 到 了 一 个 很 高 的 高 度 。 


在 我 们 和 很 多 技术 专家 合作 各 类 线 上 线 下 沙龙 分 享 的 过 程 中 , 大 家 都 意识 到 了 一 个 问题 一 一 
大 数据 知识 体系 过 于 庞大 ， 零 零散 散 的 知识 体系 终归 需要 有 一 个 载体 ， 而 这 个 载体 既 可 以 是 文字 
的 沉淀 ， 也 可 以 是 专业 课程 的 沉淀 。 很 惊喜 的 是 这 两 位 志同道合 的 朋友 在 精心 酝酿 了 很 长 一 段 时 
间 之 后 ， 终 于 开始 行动 并 将 过 往 经 验 一 一 成 文 。 


Hadoop 走 过 这 么 多 年 ， 整 个 生态 体系 越 来 越 庞大 ， 作 为 Hadoop 最 有 影响 力 的 数据 管理 软 
件 服务 提供 商 之 一 的 Cloudera 无 疑 是 一 颗 炮 眼 的 明星 。 两 位 作者 从 这 个 切入 点 开始 循序 渐进 地 
将 Hadoop 生态 系统 中 核心 的 技术 、 框 架 、 应 用 一 一 展开 ,构成 一 个 完整 的 知识 体系 框架 ,不 多 
不 少 入 门 正好 。 本 书 案例 简洁 清晰 ， 不 少 料 不 拖 举 ,可 以 帮助 大 家 快速 学 习 掌 握 大 数据 相关 的 核 
心 知识 点 ， 希 望 此 书 能 够 成 为 广大 大 数据 技术 学 习 爱 好 者 的 手边 参考 书 。 





最 后 ,回归 到 整个 大 行业 ,我们 仍然 要 意识 到 : 许多 传统 企业 在 从 业务 信息 化 到 数据 信息 化 
的 过 程 并 不 会 一 帆 风 顺 。 一 方面 来 自 于 传统 业务 与 大 数据 结合 的 场景 目前 依旧 需要 实践 的 检验 ， 
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存在 一 个 比较 长 的 建设 和 提炼 周期 ， 需 要 企业 在 人 力 、 物 力 、 财 力 有 持续 的 投入 和 保障 。 另 一 方 
面 ， 每 个 企业 的 IT 基础 、 数 据 基础 、 技 术 积累 程度 不 同 ， 对 于 选择 适合 自身 的 大 数据 方案 也 并 
不 是 那么 容易 。 对 于 技术 人 员 来 说 ， 有 些 问 题 我 们 可 能 无 力 解决 ， 我 们 能 够 做 到 的 就 是 不 断 地 夯 
实 大 数据 技术 、 用 技术 驱动 传统 业务 、 挖 掘 业务 增长 点 ， 让 大 数据 真正 地 为 企业 创造 业务 价值 。 





推荐 序 二 


最 近 几 年 ，Hadoop 作为 最 基础 和 最 流行 的 大 数据 技术 平台 ， 被 广泛 地 应 用 。 作 为 一 个 开源 
技术 平台 ，Hadoop 平台 发 展 非常 迅猛 ， 在 此 基础 上 ， 也 发 展 出 很 多 的 商业 版 本 和 分 支 。Cloudera 
作为 最 早 开源 平台 的 页 献 者 , 迅速 成 为 这 个 技术 的 领导 者 , 无 论 是 社区 版 还 是 商业 版 都 被 大 量 的 
客户 广泛 采用 。 


亦 策 软件 是 一 家 国内 领先 的 专注 于 大 数据 整体 解决 方案 的 高 科技 企业 , 为 客户 提供 大 数据 分 
析 平 台 端 到 端的 解决 方案 。 在 和 客户 交流 的 过 程 中 ,我 们 发 现 很 多 用 户 和 技术 人 员 在 学 习 、 使 用 
和 运 维 Cloudera Hadoop 平台 的 时 候 都 面临 一 个 严峻 的 挑战 ， 就 是 中 文 的 教材 和 资料 非常 少 ， 相 
关 的 课程 和 培训 又 非常 昂贵 ， 所 以 只 能 靠 自 己 摸索 或 者 学 习 英 文 的 资料 。 这 给 入 门 和 掌握 
Cloudera Hadoop 平台 造成 很 大 的 不 便 ， 降 低 了 效率 。 听 闻 宋 立 桓 老师 要 出 版 《Cloudera Hadoop 
大 数据 平台 实战 指南 》 这 本 书 ， 我 很 高 兴 受 邀 为 这 本 书写 序 。 这 本 书 梳理 了 大 数据 基础 和 核心 技 
术 框架 、 注 重 实 操 、 案 例 简 洁 ， 很 适合 广大 大 数据 技术 爱好 者 参考 学 习 。 我 想 本 书 的 出 版 一 定 能 
帮助 大 家 解决 学 习 资 料 的 燃眉之急 。 


感谢 宋 立 桓 老师 为 大 数据 技术 的 推广 做 出 贡献 , 并 真诚 希望 广大 读者 通过 本 书 能 缩短 相关 技 
术 从 入 门 到 精通 的 过 程 ， 最 后 祝 本 书 大 卖 ! 


上 海 亦 策 软 件 科技 有 限 公司 总 经 理 X89] 


推荐 序 


2011 年 秋 , 我 在 西雅图 参加 微软 的 技术 大 会 ,在 之 前 的 一 年 ， EMC 刚刚 提出 了 Big Data 和 和 
Data Lake 的 理念 ， 我 和 同事 们 疯狂 地 讨论 着 这 个 也 许 会 颠覆 软件 业 的 新 理念 。 我 们 意识 到 ， 大 
量 的 数据 和 非 结构 化 的 社会 网 络 信息 会 成 为 这 个 全 新 时 代 的 重要 资源 高 地 。 我 们 讨论 着 2005 年 
诞生 的 Hadoop, 2007 fF Linus Torvalds 于 10 天 之 内 开发 GitHub 的 传奇 ，2008 年 中 本 聪 发 表 比 
特 币 论文 ，2010 年 张 小 龙 开发 了 微 信 ， 那 是 伟大 的 事件 频繁 发 生 的 5 年 。 





我 与 本 书 作者 宋 立 桓 老师 是 在 那 时 候 认 识 的 ,我 们 谈 了 很 多 关于 未 来 数据 应 用 的 场景 ,我 们 
一 致 认为 ， 数 据 的 价值 将 会 在 未 来 10 年 内 超过 那些 陈旧 的 系统 ， 会 有 更 新 一 代 的 应 用 基于 显 而 
易 见 、 唾 手 可 得 的 数据 而 诞生 。 我 们 将 不 再 依赖 复杂 的 流程 和 权限 ,会 让 每 个 社会 实体 都 有 自 知 
之 明和 洞 见 之 能 。 


从 那 以 后 ， 宋 立 桓 老师 一 直 致 力 于 探索 数据 的 价值 ， 以 及 如 何 实现 数据 的 价值 ， 从 数据 分 析 
到 数据 业务 探索 ， 从 数据 整合 到 数据 共享 ， 他 研究 得 非常 系统 和 完整 。《Cloudera Hadoop 大 数 
据 平台 实战 指南 》 是 他 继 《 人 人 都 是 数据 分 析 师 : 微软 Power BI 实践 指南 》 之 后 的 又 一 力作 ， 
通俗 易 懂 ， 概 念 清晰 ， 是 对 大 数据 架构 和 相关 大 数据 系统 普及 的 好 教程 。 在 本 书 中 ， 从 大 数据 概 
念 到 原理 ， 从 理论 到 实战 ， 从 部 署 到 操作 ， 无 一 不 凝聚 着 他 严谨 的 学 习 态度 和 实践 精神 ， 是 很 好 
的 打开 大 数据 宝藏 的 一 把 钥匙 ， 也 是 近年 来 在 该 领域 不 可 多 得 的 学 习 材料 。 


希望 你 们 和 我 一 起 加 入 本 书 的 阅览 与 实战 的 旅程 中 。 


感谢 宋 立 桓 老师 的 作 序 邀请 ， 预 祝 有 更 多 推动 大 数据 行业 的 真知 灼 见 早日 发 表 。 


深圳 纳 实 大 数据 技术 有 限 公 司 CEO HE 
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大 数据 这 个 词 也 许 几 年 前 你 听 着 还 有 点 陌生 ， 但 我 相信 你 现在 听 到 Hadoop 这 个 词 时 会 觉得 
“熟悉 ”! 你 会 发 现 身 边 从 事 Hadoop 开发 或 者 正在 学 习 Hadoop 的 人 越 来 越 多 。 

最 早 提出 “大 数据 ”时 代 到 来 的 是 全 球 知 名 咨询 公司 麦肯锡 ， 麦 肯 锡 称 : "Hd, DAAA 
到 当今 每 一 个 行业 和 业务 职能 领域 , 成 为 重要 的 生产 因素 。 互联 网 技术 发 展 到 现今 阶段 , 大 量 日 常 、 
工作 等 事务 产生 的 数据 比 以 前 有 了 爆炸 式 的 增长 , 以 前 的 传统 数据 处 理 技术 已 经 无 法 胜任 , 需求 催 
生 技术 一 一 一 套用 来 处 理 海量 数据 的 软件 技术 框架 Hadoop 应 运 而 生 ! 

我 本 人 一 直 从 事 云 计算 、 大 数据 方面 的 咨询 和 培训 工作 。 大 数据 产业 高 速 发 展 促使 Hadoop 人 
才 的 需求 井喷 式 增长 ， 但 Hadoop 大 数据 工程 师 培养 数量 远 远 无 法 满足 市 场 的 需求 。 为 了 不 被 淹没 
在 大 数据 技术 的 浪潮 中 ， 我 们 只 有 坚持 学 习 ， 通 过 增加 知识 来 实现 对 自我 价值 的 挖掘 和 体现 。 


关于 本 书 


Hadoop 的 发 行 版 除了 社区 的 Apache Hadoop 外 ，Cloudera、Hortonworks、 华 为 等 公司 都 提供 
了 自己 的 商业 版 本 。 因 为 企业 通常 使 用 的 是 Hadoop 商业 版 本 ， 所 以 本 书 实 操 的 运行 环境 采用 
Cloudera 的 CDH。 本 书 定位 是 大 数据 从 入 门 到 应 用 的 简明 系统 教程 ， 特 色 是 理论 联系 实践 、 实 战 
实用 为 主 、 内 容 全 面 系统 、 讲 解 深入 浅 出 ， 是 大 数据 技术 爱好 者 入 门 的 最 佳 图 书 。 

本 书 分 为 18 章 〈 宋 立 桓 老师 撰写 第 1~12 章 、 陈 建 平 撰写 第 13~18 章 ) ， 分 别 从 大 数据 概述 、 
Cloudera Hadoop 平台 的 安装 部 署 、 大 数据 Hadoop 组 件 三 方面 进行 介绍 ， 内 容 包括 HDFS 分 布 式 
文件 系统 、MapReduce 计算 框架 、 资 源 管理 框架 YARN 、Hive 数据 仓库 、 数 据 迁 移 工具 Sqoop、 
分 布 式 数据 库 HBase、ZooKeeper 分 布 式 协调 服务 、 准 实时 分 析 系 统 Impala, 日志 采集 工具 Flume, 
分 布 式 消息 系统 Kafka、ETL 工具 Kettle、Spark 计算 框架 等 知识 ， 最 后 用 两 个 综合 实 操 案 例 把 所 
有 知识 点 串 起 来 。 

本 书 使 用 的 操作 环境 是 Hadoop 商业 发 行 版 的 Cloudera Express (Express 是 免费 版 本 ， 企 业 版 
需 付费 ) 。 全 书 秉承 “实践 为 主 、 理 论 够 用 ”的 原则 ， 将 演示 实验 融入 各 个 知识 点 讲解 中 。 

本 书 另 提供 丰富 的 案例 源 文件 和 大 数据 工具 软件 下 载 ， 供 读者 亲自 操作 练习 ， 在 作者 博客 
http://blog.51cto.com/lihuansong 中 有 下 载 地 址 。 

学 习 本 书 之 前 ， 和 希望 大 家 应 该 具有 如 下 基础 : 有 一 定 计算 机 网 络 基础 知识 ， 熟 悉 常 用 Linux 
操作 命令 ， 对 Java 语言 和 数据 库 理论 有 基本 的 了 解 。 
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资源 下 载 与 技术 支持 


本 书 提供 详细 的 案例 资源 文件 ， 在 作者 博客 置顶 文章 中 提供 下 载 地 址 ， 便 于 读者 动手 实践 : 

http://blog.51cto.com/lihuansong/2317021 

欢迎 读者 来 信 互 动 ， 宋 立 桓 的 邮箱 是 songlihuan(ghotmailcom ， 陈 建 平 的 邮箱 是 
daxial520(2163.com. 
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大 数据 概述 


在 信息 传播 极其 迅速 的 今天 ， 各 种 数据 渗透 我 们 的 生活 ， 并 以 指数 级 的 速度 增长 。 数 据 爆炸 
将 我 们 带 入 大 数据 时 代 ， 大 数据 已 经 蔓延 到 社会 的 各 行 各 业 ， 从 而 影响 着 我 们 的 学 习 、 工 作 、 生 活 
以 及 社会 的 发 展 , 因此 大 数据 的 相关 研究 受到 中 央 和 地 方 政 府 、 各 大 科研 机 构 和 各 类 企业 的 高 度 关 

最 早 提出 “大 数据 时 代 到 来 ”的 是 全 球 顶 级 管理 咨询 公司 麦肯锡 。 麦肯锡 宣称 : “数据 ， 已 
经 渗透 到 当今 每 一 个 行业 和 业务 职能 领域 ,成 为 重要 的 生产 因素 。 人 们 对 于 海量 数据 的 挖 气 和 运用 ， 
预示 着 新 一 波 生 产 率 增长 和 消费 者 盟 余 浪潮 的 到 来 。” 

真正 把 大 数据 推 向 公众 视野 的 是 牛津 大 学 教授 维克托 。 他 潜心 研究 大 数据 10 年 ， 成 为 最 早 洞 
见 大 数据 时 代 发 展 趋势 的 科学 家 之 一 ， 他 的 《大 数据 时 代 》 专 闭 是 国际 大 数据 研究 先河 之 作 。 维 克 
托 思维 的 深 之 之 处 在 于 ， 他 明确 指出 了 大 数据 时 代 处 理 数据 理念 上 的 三 大 转变 ， 要 全 体 不 要 抽样 ， 
要 效率 不 要 绝对 精确 ， 要 相关 不 要 因果 。 





1.1 大 数据 时 代 的 数据 特点 


在 2015 年 贵阳 国际 大 数据 产业 博览 会 暨 全 球 大 数据 时 代 贵 阳 峰 会 (以 下 简称 “ 数 博 会 ” ) 上 ， 
阿里 巴巴 董事 局 主席 马云 发 表 主题 演讲 。 马 云 在 数 博 会 上 系统 前 述 了 “DT (Data Technology, A 
据 技术 ) 时 代 ” 的 特点 ，DT 时 代 把 机 器 变 成 人 ， 而 这 也 将 改变 制造 业 的 局 面 ， 释 放 更 多 企业 的 活 
力 一 一 “未 来 的 制造 业 要 的 不 是 石油 ， 它 最 大 的 能 源 是 数据 ”。 

赁 智商 做 判断 过 时 了 ， 未 来 拼 的 是 大 数据 ， 那 么 何 为 大 数据 呢 ? 一 般 认 为 ， 大 数据 主要 具有 
四 方面 的 典型 特征 一 一 规模 性 (Volume)、 多 样 性 (Variety)、 高 速 性 (Velocity) 和 价值 性 (Value ) , 
即 所 谓 的 “4V”。 

CD 规模 性 ， 即 大 数据 具有 相当 的 规模 ， 其 数据 量 非常 巨大 。 淘 宝 网 近 4 亿 的 会 员 每 天 产生 
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的 商品 交易 数据 约 20TB, Facebook (P) 约 10 亿 的 用 户 每 天 产生 的 日 志 数 据 超 过 300TB。 数 据 
的 数量 级 别 可 划分 为 B、KB、MB、GB、TB、PB、EB、ZB 等 ， 而 数据 的 数量 级 别 为 PB 级 别 的 
才能 称 得 上 是 大 数据 。 根 据 IDC 公司 的 最 新 研究 ， 未 来 10 年 ， 全 球 的 数据 总 量 将 会 增长 50 fi 
以 此 推算 ， 数 据 产 生 的 速度 越 来 越 快 ， 而 且 数据 总 量 将 呈现 指数 型 的 爆炸 式 增长 。 

QD 多 样 性 ， 即 大 数据 的 数据 类 型 呈现 多 样 性 。 数 据 类 型 繁多 ， 不 仅 包 括 结构 化 数据 ， 还 包 
括 非 结构 化 数据 和 半 结 构 化 数据 。 其中， 结构 化 数据 即 音频 、 图 片 、 文 本 、 视 频 、 网 络 日 志 、 地 理 
位 置信 息 等 。 传统 的 数据 处 理 对 象 基本 上 都 是 结构 化 数据 , 而 在 现实 中 非 结构 化 数据 也 是 大 量 存在 
的 ， 所 以 既 要 分 析 结 构 化 数据 又 要 分 析 非 结构 化 数据 才能 满足 人 们 对 数据 处 理 的 要 求 。 

(3) 高 速 性 ， 即 处 理 大 数据 的 速度 越 来 越 快 ， 处 理 时 要 求 具有 时 效 性 ， 因 为 数据 和 信息 更 新 
速度 非常 快 , 信息 价值 存在 的 时 间 非 常 短 , 必须 要 求 在 极 短 的 时 间 下 在 海量 规模 的 大 数据 中 据 除 无 
用 的 信息 来 搜集 具有 价值 和 能 够 利用 的 信息 。 所 以 随 着 大 数据 时 代 的 到 来 , 搜集 和 提取 具有 价值 的 
数据 和 信息 必须 要 求 高 效 性 和 短 时 性 。 

(4) 价值 性 。 从 大 数据 的 表面 数据 进行 分 析 ， 进 而 得 到 大 数据 背后 重要 的 有 价值 的 信息 ， 最 
后 可 以 精确 地 理解 数据 背后 所 隐藏 的 现实 意义 。 

大 数据 的 价值 密度 的 高 低 与 数据 总 量 的 大 小 成 反比 。 以 视频 为 例 ， 一 部 1 小 时 的 视频 ， 在 连 
续 不 间断 的 监控 中 , 有 用 数据 可 能 仅 有 一 两 秒 。 如何 通过 强大 的 机 器 算法 更 迅速 地 完成 数据 的 价值 
“提纯 ”成 为 目前 大 数据 背景 下 路 待 解决 的 难题 。 


1.2. ”大 数据 时 代 的 发 展 趋势 一 一 数据 将 成 为 资产 


长 期 以 来 ， 困 扰 企业 最 大 的 难题 就 是 “如 何 更 了 解 他 的 客户 ”。 传 统 企 业 衰落 的 根本 原因 在 
于 难以 贴近 消费 者 ， 难 以 了 解 消费 者 的 真正 需求 。 互 联网 公司 的 强项 恰恰 是 天 然 地 贴近 消费 者 、 了 
解 消费 者 。 企 业 需 要 花 大 力气 真正 研究 消费 者 的 数据 ， 这 样 才能 了 解 消费 者 ， 才 能 将 数据 资产 化 ， 
将 数据 变现 。 

创建 “如 家 ”经 济 型 连锁 酒店 的 创始 人 季 琦 也 是 因为 数据 变现 的 。2001 年 ， 携 程 网 的 一 位 网 
友 在 网 上 发 了 个 帖子 , 抱怨 说 在 携程 上 预订 宾馆 的 价格 有 点 小 贵 。 这 引起 了 季 琦 的 注意 ,他 对 携程 
网 上 的 订房 数据 情况 做 了 分 析 , 发 现 客房 价格 比较 便宜 的 经 济 型 连锁 酒店 卖 得 特别 好 。 经 过 深入 的 
市 场 调研 ， 季 琦 发 现 ， 相 当 数 量 的 业务 出 差 人 员 为 企业 中 、 低 职位 员工 ， 出 差 补贴 都 有 一 定额 度 ， 
通常 一 天 吃 住 总 额 在 二 三 百 元 上 下 ; 另外 ,假日 期 间 ， 为 数 众 多 的 散 客 旅游 也 偏向 于 选择 物美 价 廉 
的 居住 场所 ， 舒 适 享受 退 居 次 要 地 位 ， 简 洁 干净 成 为 首要 条 件 。 季 琦 马上 抓 住 了 这 个 创业 机 会 ， 利 
用 携程 庞大 的 订房 网 络 、 运 营 能 力 ， 搞 经 济 型 酒店 连锁 经 营 。2002 年 ， 季 琦 创办 了 “如 家 ”经 济 
型 连锁 酒店 ， 并 很 快 保持 高 利润 率 。 他 后 来 离开 “如 家 ”创办 “ 华 住 汉 庭 ”， 也 有 不 少 大 数据 优化 
运营 的 影子 。 

今后 企业 的 竞争 ， 将 是 拥有 数据 规模 和 活性 的 竞争 ， 将 是 对 数据 解释 和 运用 的 竞争 。 最 直接 
的 例子 来 自 阿里 平台 ,尤其 是 曾经 创下 “巨大 声誉 ”的 阿里 询 盘 指数 。 通 常 而 言 ， 买 家 在 采购 商品 
前 , 会 比较 多 家 供应 商 的 产品 ， 反 映 到 阿里 巴巴 网 站 统计 数据 中 ， 就 是 查询 点 击 的 数量 和 购买 点 击 
的 数量 会 保持 一 个 相对 的 数值 。 统计 历史 上 所 有 买 家 、 卖 家 的 询 价 和 成 交 的 数据 ， 可 以 形成 询 盘 指 
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数 和 成 交 指 数 。 这 两 个 指数 是 强 相 关 的 。 询 盘 指数 是 前 兆 性 的 ， 前 期 询 盘 指数 活跃 ， 就 会 保证 后 期 
一 定 的 成 交 量 。 当 询 盘 指数 异乎 寻常 地 下 降 时 就 要 引起 经 营 者 的 关注 。2008 年 初 ， 马 云 观察 到 询 
盘 指数 异乎 寻常 地 下 降 ， 推 测 未 来 成 交 量 会 萎缩 ， 提 前 呼吁 、 帮 助 成 千 上 万 的 中 小 制造 商 准备 过 冬 
粮 ,从 而 赢得 了 崇高 的 声誉 。 此 外 , 淘宝 数据 魔方 是 淘宝 平台 上 的 大 数据 应 用 方案 。 通过 这 一 服务 ， 
商家 可 以 了 解 淘宝 平台 上 的 行业 宏观 情况 、 自 己 品牌 的 市 场 状况 、 消 费 者 行为 情况 等 ， 并 可 以 据 此 
做 出 经 营 决策 。 

可 以 说 ， 拥 有 大 量 的 数据 ， 并 善 加 运用 的 公司 ， 必 将 赢得 未 来 ! 


1.3. 大 数据 时 代 处 理 数据 理念 的 改变 


13.4 要 全 体 不 要 抽样 


在 大 数据 时 代 ， 我 们 可 以 分 析 更 多 的 数据 ， 有 时 甚至 可 以 处 理 和 某 个 特别 现象 相关 的 所 有 数 
据 ， 而 不 再 依赖 于 随机 采样 。 

传统 的 调查 方式 都 是 抽样 的 ， 抽 取 有 限 的 样本 进行 统计 ， 从 而 得 出 整体 的 趋势 来 ， 之 所 以 选 
择 抽样 而 不 是 统计 全 部 数据 ， 只 有 一 个 原因 ， 那 就 是 全 部 数据 的 数量 太 多 了 ， 根 本 没 法 操作 。 抽 样 
的 核心 原则 就 是 随机 性 ， 不 随机 就 不 能 反映 整体 趋势 性 。 抽 样 随机 性 的 道理 谁 都 知道 ， 但 要 做 到 随 
机 性 其 实 是 很 难 的 。 例 如 ， 电 视 收视 率 调查 ， 要 从 不 同 阶层 随机 找 被 调查 人 ， 但 是 高 学 历 高 收入 的 
大 忙 人 普遍 拒绝 被 调查 , 他 们 根本 就 不 会 为 几 个 赠品 而 耽误 时 间 , 愿意 接受 调查 的 多 是 整 天 闲 得 无 
聊 的 低 收入 者 ， 电 视 收 视 率 的 调查 结果 就 可 想 而 知 了 。 所 以 真正 实现 采样 的 随机 性 非常 困难 。 一 旦 
采样 过 程 中 存在 任何 偏见 ， 分 析 结 果 就 会 相去 甚 远 。 

互联 网 电视 普及 后 ， 为 大 数据 的 采集 带 来 了 新 手段 。 还 以 电视 收视 率 调查 为 例 ， 每 一 部 电视 
正在 收看 什么 节目 的 信息 会 毫 无 遗漏 地 发 送 到 调查 中 心 , 对 全 部 数据 进行 统计 分 析 , 其 结果 会 变 得 
更 加 准确 。 

之 前 由 于 数据 处 理 技术 所 限 ， 我 们 不 能 使 用 更 多 的 数据 ， 因 此 就 不 会 去 要 求 更 多 的 数据 。 随 
着 大 数据 处 理 技术 的 出 现 ， 数 据 量 的 限制 正在 逐渐 消失 ， 而 且 通 过 无 限 接近 “样本 = 总 体 ”的 方式 
来 处 理 数 据 ， 我 们 会 获得 极 大 的 好 处 。 








1.8. ”要 效率 不 要 绝对 精确 


传统 的 数据 分 析 的 思路 是 “ 宁 缺 性 洲 ”， 因 为 传统 小 数据 分 析 的 数据 量 本 身 并 不 大 ， 任 何 一 
个 错误 数据 都 有 可 能 对 结果 产生 相对 较 大 的 负面 影响 。 对 错误 数据 必须 花 大 精力 去 清除 , 这 是 小 数 
据 时 代 必 须 坚 持 的 原则 。 

大 数据 时 代 的 原则 就 变 了 ， 变 成 了 要 效率 不 要 精确 。 并 不 是 说 精确 不 好 ， 而 是 说 这 个 注重 效 
率 和 成 本 的 时 代 ， 如 果 继 续 把 排除 错误 数据 作为 重要 工作 ， 那 么 大 数据 分 析 就 进行 不 下 去 了 。 


而 是 包括 了 与 这 些 现象 相关 的 大 量 甚至 全 部 数据 , 那么 我 们 不 再 需要 过 分 担心 某 个 数据 点 对 整套 分 
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析 的 不 利 影响 。 

举 个 例子 ， 谷 歌 的 翻译 之 所 以 更 好 并 不 是 因为 它 拥有 一 个 更 好 的 算法 机 制 ， 而 是 因为 谷歌 翻 
译 增加 了 很 多 各 种 各 样 的 数据 。 从 谷歌 翻译 的 例子 来 看 ， 它 之 所 以 能 够 重复 利用 成 千 上 万 的 数据 ， 
是 因为 它 接受 了 有 错误 的 数据 。2006 年 ， 谷 歌 发 布 的 上 万 亿 的 语料库 就 是 来 自 于 互联 网 的 一 些 废 
弃 内 容 。 这 就 是 “训练 集 ”， 可 以 正确 地 推算 出 英语 词汇 搭配 在 一 起 的 可 能 性 。 虽 然 谷歌 翻译 的 语 
料 库 的 内 容 来 自 于 未 经 过 滤 的 网 页 内 容 , 会 包含 一 些 不 完整 的 句子 、 拼 写 错误 、 语 法 错误 ， 也 没有 
详细 的 人 工 纠 错 后 的 注解 , 但 是 谷歌 语料库 是 其 他 语料库 的 好 几 百 万 倍 , 这 样 的 优势 完全 压倒 了 缺 
点 。 

所 以 说 ， 在 大 数据 时 代 我 们 要 能 够 容忍 错误 。 大 数据 分 析 的 目标 在 于 预测 ， 要 学 会 在 瞬息 万 
变 的 信息 中 掌握 趋势 ， 为 下 一 刻 的 决策 提供 依据 。 


1.8.3 ”要 相关 不 要 因果 


大 数据 时 代 最 大 的 转变 就 是 放弃 对 因果 关系 的 渴求 ， 取 而 代 之 的 是 关注 相关 关系 。 相 关 关 系 
的 核心 是 量化 两 个 数据 值 之 间 的 数理 关系 。 相关 关系 强 是 指 当 一 个 数据 值 增加 时 , 另 一 个 数据 值 很 
有 可 能 也 会 随 之 增加 。 如 果 A 和 B 经 常 一 起 发 生 ， 我 们 只 需要 注意 到 B 发 生 了 ， 就 可 以 预测 A 也 
发 生 了 。 这 有 助 于 我 们 捕捉 可 能 和 A 一 起 发 生 的 事情 ， 即 使 我 们 不 能 直接 测量 或 观察 到 A。 只 要 
知道 “是 什么 ”， 而 不 需要 知道 “为 什么 ”。 这 是 对 千 百 年 来 人 类 思维 惯例 的 颠覆 。 

例如 ， 老 张 开 了 一 个 包子 铺 ， 有 时 做 少 了 不 够 卖 ， 有 时 做 多 了 没 卖 完 ， 两 头 都 是 损失 。 老 张 
琢 麻 着 买 包子 的 都 是 街坊 , 他 们 买 包子 是 有 规律 的 , 例如 老 王 只 在 周末 买 , 因为 闺女 周末 会 来 看 他 ， 
而 且 转 女 就 爱 吃 包 子 。 于 是 老 张 每 卖 一 次 就 记 一 次 账 ， 谁 在 哪 天 买 了 几 笼 包子 ， 并 试图 找 出 每 个 街 
坊 的 买 包子 规律 。 

数据 虽然 越 记 越 多 ， 但 老 张 啥 规律 也 没 找 出 来 ， 即 使 是 老 王 也 都 没准 ， 好 几 个 周末 都 没 来 买 ， 
因为 他 图 女 有 事 没 来 。 有 个 人 给 老 张 支 招 ， 你 外 记 顾 客 ， 就 记 每 天 卖 了 多 少 笼 就 行 ， 这 个 法 子 明显 
简单 有 效 ， 很 容易 就 看 出 了 周末 比 平 时 会 多 卖 两 笼 的 规律 。 

这 个 例子 虽然 简单 ， 却 道 出 了 大 数据 的 一 个 重要 特点 : 相关 关系 比 因果 关系 更 重要 。 周 末 与 
买 包子 人 多 就 是 相关 关系 , 但 为 什么 多 呢 ? 是 因为 老 王 闺 女 这 样 的 周末 来 吃 包子 的 人 多 , 还 是 周末 
大 家 都 不 愿意 做 饭 呢 ? 对 这 些 可 能 性 不 必 探究 , 因为 即使 探究 往往 也 搞 不 清楚 , 只 要 获得 了 周末 买 
包子 的 人 多 ， 能 正确 地 指导 老 张 在 周末 多 包 上 两 笼 ， 这 就 行 了 。 

我 们 理解 世界 不 再 需要 建立 在 假设 的 基础 上 ， 我 们 不 需要 了 解 航空 公司 怎样 给 机 票 定价 ， 也 
不 需要 知道 超市 顾客 的 亮 饪 喜好 ,取而代之 的 是 对 大 数据 进行 相关 关系 分 析 ， 从 而 知道 暑期 飞机 票 
价格 会 飙升 台风 期 间 待 在 家 里 的 人 最 想 吃 的 食物 是 什么 …… 我 们 用 数据 驱动 的 关于 大 数据 的 相关 
关系 分 析 法 取代 了 基于 假想 的 易 出 错 的 方法 。 大 数据 的 相关 关系 分 析 法 更 准确 、 更 快 ， 而 且 不 易 受 
偏见 的 影响 。 

要 相关 不 要 因果 ， 这 是 大 数据 思维 的 重要 变革 。 以 前 数据 处 理 的 目标 更 多 的 是 追求 对 因果 性 
的 寻找 ， 人 们 总 是 习惯 性 地 要 找 出 一 个 原因 ， 然 后 心里 才能 踏实 ， 而 这 个 原因 是 否 是 真实 的 却 往往 
无 法 核实 , 并 且 虚 假 原因 对 面向 未 来 的 决策 来 说 是 有 害 无 益 的 。 承认 很 多 事情 是 没有 原因 的 , 这 是 
人 类 思维 方式 的 一 个 重大 进步 。 
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1.4 大 数据 时 代 的 关键 技术 


大 数据 时 代 的 关键 技术 一 般 包 括 大 数据 采集 、 大 数据 预 处 理 、 大 数据 存储 及 管理 、 大 数据 分 
析 及 挖 据 、 大 数据 可 视 化 展现 等 。 

CD 大 数据 采集 技术 

大 数据 采集 是 指 通过 对 社交 网 络 交互 数据 、 移 动 互联 网 数据 、RFID 射频 数据 以 及 传感器 数据 
的 收集 ， 获 得 各 种 类 型 的 结构 化 、 半 结构 化 〈 或 称 之 为 弱 结 构 化 ) 及 非 结 构 化 的 海量 数据 。 大 数据 
采集 是 大 数据 知识 服务 模型 的 根本 。 重点 要 突破 分 布 式 、 高速 、 高 可 靠 数据 扑 取 等 大 数据 采集 技术 。 

(2) 大 数据 预 处 理 技术 

大 数据 预 处 理 技术 主要 完成 对 已 接收 数据 的 抽取 、 清 洗 等 操作 。 因 获取 的 数据 可 能 具有 多 种 
结构 和 类 型 ， 数 据 抽取 能 帮助 我 们 从 各 种 异 构 的 源 数据 源 系统 抽取 到 目的 数据 源 系 统 需要 的 数据 。 
大 数据 并 不 全 是 有 价值 的 , 有 些 数据 并 不 是 我 们 所 关心 的 内 容 , 而 另 一 些 数据 则 是 完全 错误 的 干扰 
项 ， 因 此 要 对 数据 进行 过 滤 “ 去 品 ”， 从 而 提取 出 有 效 数 据 。 

(3) 大 数据 存储 及 管理 技术 

大 数据 存储 与 管理 要 用 存储 器 把 采集 到 的 数据 存储 起 来 ， 并 进行 管理 和 调用 。 重 点 解决 复杂 
结构 化 、 半 结构 化 和 非 结构 化 大 数据 存储 管理 技术 。 主 要 解决 大 数据 的 可 存储 、 可 靠 性 及 有 效 传输 
等 几 个 关键 问题 。 可 靠 的 分 布 式 文件 系统 DFS) 是 高 效 低 成 本 的 大 数据 存储 技术 。 

(4) 大 数据 分 析 及 挖掘 技术 

大 数据 挖掘 就 是 从 大 量 的 、 不 完全 的 、 有 噪声 的 、 模 糊 的 、 随 机 的 实际 应 用 数据 中 提取 隐 含 
在 其 中 的 、 人 们 事先 不 知道 的 但 又 是 潜在 有 用 的 信息 和 知识 的 过 程 。 大 数据 挖掘 根据 挖掘 方法 可 粗 
略 地 分 为 机 器 学 习 方 法 、 统 计 方 法 、 神 经 网 络 方法 和 数据 库 的 多 维 数据 分 析 方 法 等 ， 它 能 够 将 隐藏 
于 海量 数据 中 的 信息 和 知识 挖掘 出 来 。 

(5) 大 数据 可 视 化 展现 技术 

大 数据 可 视 化 无 论 对 于 普通 用 户 或 是 数据 分 析 专 家 都 是 最 基本 的 功能 。 大 数据 可 视 化 可 以 让 
数据 自己 说 话 , 让 用 户 直 观 地 感受 到 结果 , 也 可 以 让 数据 分 析 师 根据 图 像 化 分 析 的 结果 做 出 一 些 前 
WEE WE 


15 大 数据 时 代 的 典型 应 用 案例 


1.5.1. 塔 吉 特 超市 精准 营销 案例 


美国 明尼苏达 州 一 家 塔 吉 特 超市 门店 被 客户 投诉 ， 一 位 中 年 男子 指控 塔 吉 特 将 婴儿 产品 优惠 
券 寄 给 他 的 女儿 《一 个 高 中 生 ) 。 但 没 过 多 入 他 却 来 电 道 区， 因为 女儿 经 他 逼 问 后 坦承 自己 真 的 怀 
孕 了 。 
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原来 孕妇 对 零售 商 来 说 是 一 个 含金量 很 高 的 顾客 群体 ， 塔 吉 特 百货 就 是 靠 着 分 析 用 户 所 有 的 
购物 数据 ， 然 后 通过 相关 关系 分 析 得 出 事情 的 真实 状况 。 在 美国 ， 出 生 记录 是 公开 的 ， 等 孩子 出 生 
了 ,新 生 儿 母亲 就 会 被 铺天盖地 的 产品 优惠 广告 包围 ,， 那 时 再 行动 就 晚 了 ， 因 此 必须 赶 在 孕妇 怀孕 
前 期 就 行动 起 来 。 塔 吉 特 的 顾客 数据 分 析 部 门 发 现 , 怀孕 的 妇女 一 般 在 怀孕 第 三 个 月 的 时 候 会 购买 
很 多 无 香 乳液 。 儿 个 月 后 ， 她 们 会 购买 镁 、 钙 、 锌 等 营养 补充 剂 。 根 据 数 据 分 析 部 门 提供 的 模型 ， 
塔 吉 特 制订 了 全 新 的 广告 营销 方案 , 在 孕期 的 每 个 阶段 给 客户 寡 送 相应 的 优惠 券 。 结 果 ， 孕 期 用 品 
销售 呈现 了 爆炸 性 的 增长 。 塔 吉 特 的 销售 额 暴 增 ， 大 数据 的 巨大 威力 麦 动 了 全 美 。 

这 个 案例 说 明 大 数据 在 精准 营销 上 的 成 功 ， 利 用 大 数据 技术 分 析 客户 消费 习惯 ， 了 解 其 消费 
需求 ， 达 到 精确 营销 的 目的 。 这 种 营销 方式 的 关键 在 于 时 机 的 把 握 上 ， 要 正好 在 客户 有 相关 需求 时 
才 进 行营 销 活动 的 精准 推送 ， 这 样 才能 保证 较 高 的 成 功率 。 


1.5.0 ”谷歌 流感 趋势 案例 


谷歌 公司 启动 的 GFT 项 目 ， 目 标 是 预测 美国 疾 控 中 心 CDO 报告 的 流感 发 病 率 。 谷 歌 基 于 
用 户 搜索 日 志 〈 其 中 包括 搜索 关键 词 、 用 户 搜索 频率 以 及 用 户 IP 地 址 等 信息 ) 的 汇总 信息 ， 成 功 
“预测 ”了 流感 病人 的 就 诊 人 数 。 

美国 CDC 疾 控 中 心 统计 美国 本 土 各 个 地 区 的 疾病 就 诊 人 数 ， 然 后 汇总 再 公布 出 来 ， 一 般 要 延 
迟 两 周 左右 。 就 是 说 当天 流感 的 全 国 就 诊 人 数 要 在 两 周 之 后 才 知 道 , 谷歌 就 利用 它 的 搜索 引擎 搭建 
了 一 个 预测 平台 ， 把 这 个 数据 提前 公布 出 来 。 我 们 都 知道 “ 越 及 时 的 数据 ,价值 越 高 ”， 所 以 谷歌 
的 工作 无 论 是 在 公共 管理 领域 还 是 商业 领域 都 具有 重大 的 意义 。 

谷歌 对 于 数据 的 处 理 只 用 了 很 简单 的 Logistic 回归 关系 , 却 成 功 地 预测 了 复杂 的 流感 规模 的 问 
题 。 谷歌 用 简单 的 方法 预测 了 复杂 的 问题 , 根本 原因 就 在 于 谷歌 的 数据 量 大 , 它 有 着 世界 上 最 大 的 
搜索 引擎 ， 每 个 用 户 的 搜索 行为 痕迹 都 存在 谷歌 的 数据 库 里 。 


1.5.8 证券 行 业 案例 


在 大 数据 技术 诞生 之 前 ， 市 场 情绪 始终 无 法 进行 量化 。 东 亚 尤 其 是 中 国 的 股票 类 证 券 投资 市 
场 仍 以 散户 为 主 , 因此 市 场 受 投资 者 情绪 和 宏观 政策 性 因素 影响 很 大 。 而 个 人 投资 者 行为 可 以 更 多 
地 反映 在 互联 网 用 户 行为 大 数据 上 ， 从 而 为 有 效 地 预测 市 场 情绪 和 趋势 提供 了 可 能 。 大 数据 技术 通 
过 收集 并 分 析 社 交 网 络 如 微 博 、 朋 友 圈 、 专 业 论 坛 等 渠道 上 的 结构 化 和 非 结构 化 数据 ， 形 成 市 场 主 
观 判断 因素 和 投资 者 情绪 打分 ， 从 而 量化 股价 中 人 为 因素 的 变化 预期 。 市场 投资 情绪 量化 是 在 传统 
量化 策略 基础 上 的 创新 产物 。 

2011 年 5 月， 英国 诞生 了 一 个 规模 为 4000 万 美金 的 对 冲 基金 Derwent Capital Markets， 该 基 
金 是 首 家 基于 社交 网 络 的 对 冲 基 金 ， 通 过 分 析 Twitter 的 数据 内 容 来 感知 市 场 情 绪 ， 从 而 用 于 指导 
投资 。 而 国内 的 广发 中 证 百度 百 发 策略 100 指数 型 证 券 投资 基金 是 国内 首 只 互联 网 大 数据 基金 , 最 
大 的 特点 是 它 将 大 数据 因子 纳入 量化 选 股 模型 。 通 过 互联 网 用 户 行为 大 数据 反映 的 投资 市 场 情 绪 、 
宏观 经 济 预 期 和 走势 ， 成 为 百 发 100 指数 模型 引入 大 数据 因子 的 重点 。 
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1.5.4” 某 运营 商 大 数据 平台 案例 


众所周知 ， 用 户 的 上 网 行为 中 蕴含 着 大 量 的 客户 特征 和 客户 需求 信息 ， 这 些 信息 至 关 重 要 
而 又 是 传统 的 CDR 话 单 分 析 所 不 能 提供 的 。 因 此 ， 这 就 要 求 用 户 的 上 网 日 志 记录 必须 被 保存 ， 而 
且 需 要 进行 数据 分 析 挖掘 处 理 ， 然 后 根据 处 理 结 果 定 义 用 户 的 行为 习惯 , 为 运营 商业 务 部 门 提供 重 
要 的 营销 依据 。 上 网 数据 是 一 个 典型 的 大 数据 。 采 用 什么 方式 进行 存储 和 检索 是 一 个 大 问题 ， 此 前 
运营 商 采 用 的 架构 方式 是 IOE 的 架构 ， 但 是 它 解决 不 了 我 们 的 问题 。 存 储 这 么 大 规模 量 的 数据 ， 
以 后 超越 了 可 管理 容量 的 上 限 。 在 做 查询 的 时 候 , 关系 型 数据 库 对 大 规模 数据 做 操作 的 时 候 性 能 是 
严重 下 降 的 。 

传统 IOE 方 式 用 来 存储 这 么 大 的 上 网 记录 已 经 不 可 能 了 , 需要 采用 大 数据 技术 Hadoop 来 解决 。 
Hadoop 本 身 的 底层 核心 组 件 之 一 是 分 布 式 文件 系统 HDFS， 可 以 解决 海量 数据 如 何 存储 的 问题 。 
另外 一 个 核心 组 件 MapReduce 计算 框架 解决 了 海量 数据 如 何 计算 的 问题 。 此 外 ， 构 建 于 HDFS 之 
上 的 HBase 分 布 式 数据 库 处 理 海量 数据 的 入 库 速 度 和 检索 速度 非常 迅速 。 目 前 运营 商 已 构建 了 一 
个 全 国 集中 的 一 级 架构 海量 数据 存储 和 查询 系统 , 在 集团 公司 范围 内 进行 统一 部 署 ， 各 个 省 份 仅 仅 
是 做 数据 的 采集 , 按照 业务 实时 性 将 数据 传送 到 集团 公司 ， 由 集团 公司 统一 处 理 , 全 国 所 有 用 户 所 
有 上 网 记录 数据 都 放 北京 数据 中 心里 。 截 至 目前 已 经 部 署 了 4.5PB 的 存储 空间 , 分 布 在 300 个 数据 
节点 上 ， 系 统 每 天 有 能 力 处 理 700 亿 条 上 网 记录 。 








1.6 Hadoop 概述 和 介绍 


1.6.1 Hadoop 发 展 历史 和 应 用 现状 


Hadoop 最 初 是 开始 于 2002 年 的 Apache 的 Nutch 项 目 。 Nutch 是 一 个 开源 Java 实现 的 搜索 引 
擎 ， 它 遇 到 的 难题 是 ， 在 抓 取 Web 数据 时 如 何 保存 和 使 用 这 些 庞大 的 数据 。 随 后 Google 在 2003 
年 发 表 了 一 篇 技术 学 术 论 文 谷歌 文件 系统 CGFS, Google File System， 是 Google 公司 为 了 存储 海 
量 搜索 数据 而 设计 的 专用 文件 系统 ) 。2004 年 Nutch 创始 人 Doug Cutting 模仿 Google 的 GFS 论文 
实现 了 分 布 式 文件 存储 系统 NDFS。 

2004 年 Google 又 发 表 了 一 篇 技术 学 术 论文 MapReduce (一 种 分 布 式 编程 模型 , 用 于 大 规模 数 
据 集 的 并 行 分 析 运 算 ) 。2005 年 Doug Cutting 基于 MapReduce 的 思想 ， 在 Nutch 搜索 引擎 实现 了 
该 功能 。2006 年 ，Yahoo 邀请 Doug Cutting 加 盟 ，Doug Cutting 将 NDFS 和 MapReduce 升级 命名 
为 Hadoop。2008 年 1 月 ，Hadoop 正式 成 为 Apache 的 顶级 项 目 , 开始 被 雅虎 之 外 的 其 他 公司 使 用 。 
2009 年 ，Yahoo 使 用 4000 节点 的 机 群 运行 Hadoop， 支 持 广 告 系统 和 Web 搜索 的 研究 。Facebook 
的 Hadoop 机 群 扩展 到 数 千 个 节点 ， 用 于 存储 内 部 日 志 数 据 ， 支 持 其 上 的 数据 分 析 和 机 器 学 习 。 淘 
宝 的 Hadoop 系统 达到 千 台 规模 ， 用 于 存储 并 处 理 电子 商务 的 交易 相关 数据 。 

Hadoop 改变 了 企业 对 数据 的 存储 、 处 理 和 分 析 的 过 程 ， 加 速 了 大 数据 的 发 展 ， 形 成 了 自己 非 
常 火爆 的 技术 生态 圈 ， 成 为 事实 上 的 大 数据 处 理 标准 。 
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1.6.2 Hadoop 的 特点 


Hadoop 是 一 个 能 够 对 大 规模 数据 进行 分 布 式 处 理 的 基础 框架 ， 用户 可 以 在 不 了 解 分 布 式 底层 
细节 的 情况 下 开发 分 布 式 程序 ， 并 充分 利用 集群 的 威力 进行 计算 和 存储 。 它 具有 如 下 特点 : 


(1) 低 成 本 : 可 以 通过 普通 机 器 组 成 的 服务 器 集群 来 分 发 以 及 处 理 数据 。 

(2) 高 可 扩展 性 : 集群 可 以 很 容易 扩展 到 数 千 个 计算 机 节点 。 

GO 高 效率 : Hadoop 采用 分 布 式 存储 和 分 布 式 计算 处 理 两 大 核心 技术 ， 通 过 分 发 数据 ， 在 
数据 所 在 的 节点 上 并 行 地 高 效 处 理 它们 。 

(4) 高 可 靠 性 : Hadoop 能 自动 地 维护 数据 的 多 份 复制 ， 并 且 在 任务 失败 后 能 自动 地 重新 部 
署 计 算 任务 。 


1.6.3 Hadoop 的 生态 系统 


早期 的 Hadoop〈 包 括 Hadoop v1.0 以 及 更 早 之 前 的 版 本 ) 主要 由 两 个 核心 组 件 构成 : HDFS 
和 MapReduce。 其 中 ，HDFS 分 布 式 文件 系统 是 Google GFS 的 开源 版 本 ，MapReduce 分 布 式 计算 
框架 实现 了 由 Google 工程 师 提出 的 MapReduce 编程 模型 。 还 有 一 些 围绕 在 Hadoop 周围 的 开源 项 
目 ， 为 完善 大 数据 处 理 的 全 生命 周期 提供 了 必要 的 配套 和 补充 。 这 些 软件 常用 的 有 ZooKeeper (分 
布 式 协调 服务 ) 、Hive〈 基 于 Hadoop 的 数据 仓库 工具 ) 、HBase〈 实 时 分 布 式 数据 库 ) ~ Pig CH 
据 流 语言 和 运行 环境 ) 、Flume (日 志 采 集 工 具 ) 、Sqoop (Hadoop 和 关系 数据 库 导 入 导出 工具 ) ~ 
Mahout (数据 挖掘 工具 ) 等 ， 如 图 1-1 所 示 。 
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图 1-1 


2012 4 5 H, Hadoop v2.0 版 本 发 布 , 其 中 重要 的 变化 是 在 Hadoop 核心 组 件 中 增加 了 YARN, 
YARN 的 出 现 是 为 了 把 计算 框架 与 资源 管理 彻底 分 离 ， 解 决 Hadoop v1.0 由 此 带 来 的 扩展 性 差 、 单 
点 故障 和 不 能 同时 支持 多 种 计算 框架 的 问题 ， 至 此 Hadoop 与 Google 的 大 数据 平台 比肩 。 
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Hadoop 是 一 个 开源 项 目 ， 先 后 有 许多 公司 在 其 框架 基础 上 进行 了 增强 并 且 发 布 了 商业 版 本 。 
Hadoop 商业 发 行 版 的 提供 者 通过 优化 核心 代码 、 增 强 易 用 性 、 提 供 技术 支持 和 持续 版 本 升级 为 
Hadoop 平台 实现 了 许多 新 功能 。 市场 上 受 认可 的 Hadoop 商业 发 行 版 的 提供 者 主要 有 Cloudera、 
MapR 和 Hortonworks， 它 们 发 行 的 Hadoop 商业 版 本 都 能 与 Apache 社区 开源 版 本 兼容 。Cloudera 
于 2008 年 成 为 第 一 个 Hadoop 商业 化 公司 ， 并 在 2009 年 推出 第 一 个 Hadoop 商业 发 行 版 。 

Cloudera 是 Hadoop 领域 知名 的 公司 和 市 场 领导 者 ， 提 供 了 市 场 上 第 一 个 Hadoop 商业 发 行 版 
K. 在 多 个 创新 工具 的 贡献 者 排行 榜 中 名 列 榜首 。 它 的 系统 管控 平台 Cloudera Manager 非常 容易 使 
用 ， 界 面 清晰 ， 是 监控 和 部 署 大 数据 集群 的 最 佳 平台 。Cloudera 除了 提供 免费 版 本 (拥有 核心 管理 
监控 功能 和 群集 节点 数目 无 限制 ) 的 下 载 , 还 为 付费 客户 提供 功能 增强 企业 版 本 。 企 业 版 提供 在 企 
业 生 产 环境 中 运行 Hadoop 所 必需 的 运 维 功能 ， 如 无 宕 机 滚动 升级 、 灾 备 、 数 据 治理 审计 等 。 

现在 主流 的 公有 云 都 已 经 在 原 有 提供 虚拟 机 的 TaaS 服务 之 外 提供 了 基于 Hadoop 的 Paas 云 计 
算 服务 ， 未 来 这 块 市 场 的 发 展 将 超过 私有 Hadoop 的 部 署 。 


$2 
Cloudera 大 数据 平台 介绍 


由 于 Hadoop 深 受 客户 欢迎 ， 因 此 许多 公司 都 推出 了 各 自 版 本 的 Hadoop， 也 有 一 些 公司 围绕 
Hadoop 开发 产品 。 在 Hadoop 生态 系统 中 ， 规 模 最 大 、 知 名 度 最 高 的 公司 是 Cloudera。2008 年 成 
立 的 Cloudera 是 最 早 将 Hadoop 商用 的 公司 ,为 合作 伙伴 提供 Hadoop 的 商用 解决 方案 。 
Cloudera 企业 解决 方案 包括 Cloudera Hadoop 发 行 版 (Cloudera Distribution Hadoop, CDH)、Cloudera 
Manager (CM) 等 。 概 括 起 来 说 ，Cloudera 提供 一 个 可 伸缩 的 、 稳 定 的 、 综 合 的 企业 级 大 数据 管 
理 平台 ， 它 拥有 最 多 的 部 署 案例 ， 提 供 强大 的 部 署 、 管 理 和 监控 工具 。 


2.1 Cloudera 简介 


众所周知 ，Hadoop 是 一 个 开源 项 目 ， 所 以 很 多 公司 在 这 个 基础 上 进行 商业 化 ， 在 Hadoop Æ 
态 系统 中 ， 规 模 最 大 、 知 名 度 最 高 的 公司 则 是 Cloudera, FH ñi Intel 已 经 成 为 Cloudera 最 大 的 战略 
股东 。Cloudera 的 客户 有 很 多 知名 公司 ， 如 哥伦比亚 广播 公司 、eBay、 摩 根 大 通 、 迪 士 尼 等 。 

Cloudera 提供 一 个 可 扩展 的 、 灵 活 的 、 集 成 的 企业 级 大 数据 管理 平台 ， 可 用 来 方便 地 管理 你 
的 企业 中 快速 增长 的 多 种 多 样 的 数据 。 业 界 领 先 的 Cloudera 产品 和 解决 方案 使 你 能 够 部 署 并 管理 
Apache Hadoop 及 其 相关 项 目 、 操 作 和 分 析 你 的 数据 ， 以 及 保护 数据 的 安全 。 

Cloudera 提供 下 列 产品 和 工具 : 


(1) CDH: Cloudera 分 发 的 Apache Hadoop 和 其 他 相关 开放 源 代码 项 目 ， 包 括 Impala 和 
Cloudera Search。CDH 还 提供 安全 保护 以 及 与 许多 硬件 和 软件 解决 方案 的 集成 。 

(2) Cloudera Impala: 一 种 MPP〈 大 规模 并 行 处 理 ) SQL 引擎， 用 于 交互 式 查 询 分 析 。 它 
非常 适合 用 于 具有 连接 、 聚 合 和 子 查询 的 传统 BI 商业 智能 的 查询 。 它 可 以 查询 来 自 各 种 源 的 
Hadoop 数据 文件 ， 包 括 由 MapReduce 作业 生成 的 数据 文件 或 加 载 到 Hive 表 中 的 数据 文件 。 你 
可 以 通过 Cloudera Manager 用 户 界面 管理 Impala 及 其 他 Hadoop 组 件 ,并 通过 Sentry 授权 框架 
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保护 其 数据 。 

(3) Cloudera Search: 提供 近 实 时 访问 已 存储 的 数据 ， 或 者 摄取 数据 到 Hadoop 以 及 HBase 
中 去 。Search 提供 了 近 实 时 的 索引 、 批 量 索引 、 全 文 检索 和 Drill.Down CFD 的 导航 ， 以 及 一 
个 简单 的 全 文 检索 的 接口 ， 只 需要 一 些 NoSQL 或 者 编程 基础 (技能 ) 即 可 使 用 。 完 全 集成 的 数 
据 处 理 平台 Search 使 用 了 在 CDH 中 灵活 的 、 可 扩展 的 、 可 靠 的 存储 系统 。 这 样 就 不 再 需要 在 基 
础 设施 层 或 者 业务 层 移动 大 量 的 数据 了 ， 也 不 需要 产生 新 的 任务 。 

(4) Cloudera Manager: 一 个 复 用 于 部 署 、 管 理 和 监控 CDH 大 数据 平台 的 应 用 程序 。Cloudera 
Manager 提供 Admin Console, 这 是 一 种 基于 Web 的 用 户 界面 , 使 得 企业 数据 管理 更 加 容易 方便 。 
Cloudera Manager 易于 升级 和 安装 Hadoop 组 件 ， 还 提供 了 在 几 分 钟 之 内 建立 集群 主 节点 的 高 可 用 
(High Availability) 。 它 还 包括 Cloudera Manager API， 可 用 来 获取 群集 运行 状态 信息 以 及 配置 
Cloudera Manager。 

(5) Cloudera Navigator: 定位 为 Hadoop 提供 数据 管理 和 监管 的 工具 ， 它 简化 了 存储 和 密 钥 
的 管理 。Cloudera Navigator 中 强大 的 数据 审计 和 数据 保护 使 企业 能 够 满足 严格 的 规范 限制 并 遵从 
相关 法 规 。 


2.2 ”Cloudera 的 Hadoop 发 行 版 CDH 简介 


2.2.1 CDH 概述 


Cloudera 提供 了 Hadoop 的 商业 发 行 版 CDH， 能 够 十 分 方便 地 对 Hadoop 集群 进行 安装 、 部 署 
和 管理 。 如 图 2-1 所 示 ，CDH 是 Cloudera 发 布 的 一 个 自己 封装 的 Hadoop 商业 版 软件 发 行 包 ， 里 
面 不 仅 包含 了 Cloudera 的 商业 版 Hadoop， 同 时 CDH 中 也 包含 了 各 类 常用 的 开源 数据 处 理 与 存储 
框架 ， 如 Spark. Hive. HBase 等 。 


Filesystem Online NoSQL 
(HOFS) (HEssej 
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部 署 Hadoop 群集 的 时 候 ， 可 以 选择 Cloudera Express 免费 版 本 。 这 个 版 本 包含 了 CDH 以 及 
Cloudera Manager 核心 功能 ， 提 供 了 对 集群 的 管理 功能 ， 比 如 自动 化 部 署 、 中 心 化 管理 、 监 控 、 诊 
断 功 能 等 。 另 外, Cloudera Express 免费 版 本 对 群集 节点 数目 是 无 限制 的 。 收费 的 Cloudera Enterprise 
拥有 高 级 管理 功能 ， 如 提供 商业 技术 支持 、 自 动 化 备份 和 灾难 恢复 、 记 录 配 置 历史 及 回 滚 等 ， 而 这 
些 功 能 Cloudera Express 则 没有 。 





2.2.2 CDH 和 Apache Hadoop 对 比 


Hadoop 大 致 可 分 为 Apache Hadoop 和 第 三 方 发 行 版 Hadoop。 考 虑 到 Hadoop 集群 部 署 的 高 效 
性 、 集 群 的 稳定 性 以 及 后 期 集中 的 配置 管理 ， 业 界 大 多 使 用 Cloudera 公司 的 发 行 版 CDH。 
Apache Hadoop 社区 版 本 虽然 完全 开源 免费 ， 但 是 也 存在 诸多 问题 : 


COD 版 本 管理 比较 混乱 ， 让 人 有 些 无 所 适 从 。 

(2) 集群 部 署 配置 较为 复杂 , 通常 按照 集群 需要 编写 大 量 的 配置 文件 , 分 发 到 每 一 台 节点 上 ， 
容易 出 错 ， 效 率 低下 。 

G) 对 集群 的 监控 、 运 维 ， 需 要 安装 第 三 方 的 其 他 软件 ， 运 维 难度 较 大 。 

(4) 在 Hadoop 生态 圈 中 ， 组 件 的 选择 和 使 用 ， 比 如 Hive、Mahout、Sqoop、Flume、Spark、 
Oozie 等 ， 需 要 大 量 考 虑 兼容 性 的 问题 ， 经 常会 浪费 大 量 的 时 间 去 编译 组 件 ， 解 决 版 本 冲突 问题 。 


CDH 版 本 的 Hadoop 的 优势 在 于 : 


(1) 基于 Apache 协议 ，100% 开 源 ， 版 本 管理 清晰 。 

(2) 在 兼容 性 、 安 全 性 、 稳 定性 上 比 Apache Hadoop 有 大 幅度 的 增强 。 

G) 运 维 简单 方便 ， 对 于 Hadoop 集群 提供 管理 、 诊 断 、 监 控 、 配 置 更 改 等 功能 ， 使 得 运 维 
工作 非常 高 效 ， 而 且 群 集 节点 越 多 ， 优 势 越 明显 。 

(4) CDH 提供 成 体系 的 文档 、 很 多 大 公司 的 应 用 案例 以 及 商业 支持 等 。 








2.3 Cloudera Manager 大 数据 管理 平台 介绍 


2.3.1 Cloudera Manager 概述 和 整体 架构 





Cloudera Manager CfEjfk CM) 是 为 了 便于 在 集群 中 进行 Hadoop 等 大 数据 处 理 相 关 的 服务 安 
装 和 监控 管理 的 组 件 ， 对 集群 中 主机 、Hadoop、Hive、Spark 等 服务 的 安装 配置 管理 做 了 极 大 简化 。 
它 是 Hadoop 集群 的 软件 分 发 及 管理 监控 平台 ， 通 过 它 可 以 快速 地 部 署 好 一 个 Hadoop 集群 ， 并 对 
集群 的 节点 及 服务 进行 实时 监控 。 

Cloudera Manager 的 整体 架构 如 图 2-2 所 示 。 
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Clients d 
Admin 9 






Console 


Ea 


图 2-2 


Cloudera Manager 的 核心 是 Cloudera Manager Server， 它 包括 以 下 组 件 。 


Server: 托管 Admin Console Web Server 和 应 用 程序 逻辑 。 它 负责 安装 软件 、 配 置 、 启 动 和 停 
止 服务 以 及 管理 运行 服务 的 群集 。 

Agent 安装 在 每 台 主机 上 。 它 负责 启动 和 停止 进程 ， 解 压缩 配置 ， 触 发 安装 和 监控 主机 。 默 
认 情 况 下 ，Agent 每 隔 15 秒 向 Cloudera Manager Server 发 送 一 次 检测 信号 。 但 是 ， 为 了 减 
少 用 户 延迟 ,在 状态 变化 时 会 提高 频率 。 如 果 Agent 停止 检测 信号 ， 主 机 将 被 标记 为 运行 状 
况 不 良 。 

Management Service: 执行 各 种 监控 、 报 警 和 报告 功能 的 一 组 角色 的 服务 。 

Database: 存储 配置 和 监控 信息 。 

Cloudera Repository: 可 供 Cloudera Manager 分 配 的 软件 的 存储 库 (repo Æ). 

Client: 用 于 与 服务 器 进行 交互 的 接口 。 

Admin Console: 管理 员 控 制 台 。 

API: Cloudera 产品 具有 开发 的 特性 , 所 有 在 Cloudera Manager 界面 上 提供 的 功能 , 通过 API 
都 可 以 完成 同样 的 工作 ， 这 些 API 都 是 标准 的 REST API, 开发 人 员 使 用 API 甚至 可 以 创建 
自 定 义 的 Cloudera Manager 应 用 程序 。 


Cloudera Management Service 可 作为 一 组 角色 实施 各 种 管理 功能 : 


Activity Monitor: 收集 有 关 服 务 运行 活动 的 信息 。 
Host Monitor: 收集 有 关 主 机 的 运行 状况 和 指标 信 
Service Monitor: 收集 有 关 服 务 的 运行 状况 和 指标 信息 。 

Event Server: 聚合 组 件 的 事件 并 将 其 用 于 警报 和 搜索 。 

Alert Publisher : 为 特定 类 型 的 事件 生成 和 提供 警报 。 

Reports Manager: 生成 图 表 报 告 ， 提 供用 户 、 用 户 组 的 目录 的 磁盘 使 用 率 、 磁 盘 IO 等 历史 视图 。 
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2.8.2 Cloudera Manager 的 基本 核心 功能 


Cloudera Manager 作为 Hadoop 大 数据 平台 的 管理 工具 ， 能 够 有 效 地 帮助 用 户 更 容易 地 使 用 
Hadoop。 它 的 基本 核心 功能 分 为 四 大 模块 : 管理 功能 、 监 控 功 能 、 诊 断 功能 和 集成 功能 。 
Cloudera Manager 提供 的 管理 功能 如 下 : 


CD 批量 自动 化 部 署 节点 : CM 提供 强大 的 Hadoop 集群 部 署 能 力 ， 能 够 批量 地 自动 化 部 署 
节点 。 安 装 一 个 Hadoop 集群 只 需 添加 需要 安装 的 节点 、 安 装 需要 的 组 件 和 分 配角 色 这 三 步 ， 大 大 
缩短 了 Hadoop 的 安装 时 间 ， 也 简化 了 Hadoop 的 安装 过 程 。 

(2) 可 视 化 的 参数 配置 功能 : Hadoop 包含 许多 组 件 ， 不 同 组 件 都 包含 各 种 各 样 的 XML 配置 
Xt. CM 提供 界面 GUI 可 视 化 参数 配置 功能 ， 如 图 2-3 所 示 ， 能 自动 部 署 到 每 个 节点 。 


HDFS (custer1) # 人 - Ë XM. 


实例 REEE 命令 MAF 缓存 统计 信息 审核 。 NameNode Web Ule — 快速 链接 ~ 





切换 至 新 布局 。 角色 组 m 


ANZ RENS 
* NameNode and SecondaryNameNode have different heapsizes 
` 下 方 还 有 1 个 验证 警告 


类 别 m a 说 明 

p 服务 范围 文件 系统 垃圾 间隔 1 天 垃圾 桶 检查 点 之 间 的 分 钟 数 ， 还 可 控 市 
fs.trash interval nip s pd, EAH 
[ Balancer Default Group Trash checkpointing is on E. WA 0. 





P Datanode Default Group. 








图 2-3 


Go 智能 参数 验证 以 及 优化 : 当 用 户 配置 部 分 参数 值 有 问题 时 ，CM 会 给 出 智能 错误 提示 
帮助 用 户 更 合理 地 修改 配置 参数 ， 如 图 2-4 所 示 。 


状态 ”所 有 运行 状况 同 题 ”配置 ES 加 -所 有 服 新 命令 














v Cluster 1 
@ € Hive: Spark Executor Cores 
1 小 于 4 建议 的 最 小 值 
(9 $ HiveServer2 (node0): Spark Executor Cores 
1 小 于 4 建议 的 最 小 值 
@ d ZocKeeper: Service zookeeper has 1 Server. Cloudera suggests at least 3 Servers for ZooKeeper 
@ 8 HDFS: Service hdfs has 2 DataNodes. Cloudera suggests at least 3 DataNodes for HDFS. 
(9 © HDFS: NameNode and SecondaryNameNode have different heapsizes 
@ O HDFS: Java Heap Size of NameNode in Bytes 
Java Heap Size of NameNode in Bytes is recommended to be at least 1GB for every million HDFS blocks. Suggested minimum value: 4294967296 
9 iE node0: Memory Overcommit Validation Threshold 


主机 node0 上 的 内 存 被 调 拔 过 度 。 总 内 存 分 配额 是 7.3 GiB 个 字 节 , (838 RAM 只 有 7.3 GiB 个 字 节 (其 中 的 1.5 GiB 个 字 节 是 保留 给 系统 使 用 的 ) 
机 页 面 上 的 资源 "选项 卡 。 重 新 配置 主机 上 的 角色 以 降低 总 内 存 分 配额 。 请 注意 : Java 最 大 堆 大 小 乘 以 1.3 等 于 近似 的 JVM 开销 


v 其 他 


[3 Cloudera Management Service: Java Heap Size of Service Monitor in Bytes 
推荐 的 堆 大 小 为 1.0 GiB 字 节 ,大 于 配置 768.0 MiB. 








E24 
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(D 高 可 用 配置 : CM 对 关键 的 组 件 使 用 HA 部 署 ， 如 NameNode 高 可 用 可 以 通过 CM 的 
Web 管理 界面 ， 根 据 向 导 启 用 HDFS HA， 如 图 2-5 所 示 。 


Cloudera MANAGER 





启用 HDFS 的 High Availability 
分 配角 色 


NameNode 主机 node0 (当前 ) 


nodel 


JournalNode 主机 HREN 


我 们 建议 在 具有 与 NameNode 相似 硬件 规格 的 机 器 上 承载 JournalNode. 
少 三 个 以 上 的 奇数 JournalNode 


图 2-5 








(5) 权限 管理 :提供 不 同 级 别 的 管理 权限 ， 比 如 只 读 用 户 访问 Cloudera Manager 的 界面 时 ， 
所 有 服务 对 应 的 启 停 等 操作 选项 都 不 可 用 ， 如 图 2-6 所 示 。 


Cloudera MANAGER H~ 主机 ~ 





状态 BUnscWusA RKEEXU- 所 有 最 新 命令 





€ Cluster1 (cor F 7 
e sn 查看 客户 端 配置 URL 
e Fume 
@ H hease E 
@ 目 HDFS * E 
@ quive 

图 2-6 


Cloudera Manager 提供 的 监控 功能 如 下 : 


COD 服务 监控 : 查看 服务 和 实例 级 别 健康 检查 的 结果 ， 对 设置 的 各 种 指标 和 系统 运行 情况 进 
行 全 面 监控 ， 如 图 2-7 所 示 。 如 果 任 何 运 行 状 况 测试 是 不 良 (Bad) ， 则 服务 或 者 角色 的 状态 就 是 
AB (Bad) 。 如 果 任 何 运行 状况 测试 是 存在 隐患 (Concerning， 没 有 任何 一 项 是 不 良 (Bad) ) , 
则 角色 或 者 服务 的 状况 就 是 存在 隐患 (Concerning) ， 而 且 系 统 会 对 管理 员 应 该 采取 的 行动 提出 建 
议 ， 如 图 2-8 所 示 。 
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Æ 


RS ”所 有 运行 状况 问题 如 sx ~ 所 有 最 新 命令 





@ Cluster 1 


ad 





HBase 02 

HDFS 9 4 
a 
— (JOO 


M Impala 





9 HBase (custer1) ， 损 作 ~ 


状态 ”实例 配置 命令 表 浏览 器 图 表 库 ” 表 统计 信息 ”审核 Web UI ~ 


运行 状况 测试 。 n> nunas 
O RegionServer 运行 状况 
运行 良好 的 RegionServer: 2。 存 在 隐患 的 RegionServer: 0, RegionServer 
总 数 : 3。 运 行 良好 : 66.67%。 运 行 良好 或 存在 隐患 : 66.67%。 临界 阔 值 
90.00%。 


© HBase Master 运行 状况 
Mast 总 : ip-172-31-24-169.ap-southeast-1.compute.internal (可 用 性 : 
活动 ， 运 行 状况 : 良好 ) ,ip-172-31-16-68.ap-southeast- 
1.compute.internal (可 用 性 : 备用 ， 运 行 状况 : 良好 ) ,ip-172-31-21-83.ap- 
southeast-1.compute.internal (可 用 性 : 备用 ， 运 行 状况 : 良好 ) 















图 2-8 


Qo 主机 监控 : 监控 群集 内 所 有 主机 的 有 关 信息 ， 包 括 主 机 上 目前 消耗 的 内 存 、 主 机 上 运行 
的 角色 分 配 等 ， 如 图 2-9 所 示 ， 不 但 显示 所 有 群集 主机 的 汇总 视图 ， 而 且 能 进一步 显示 单个 主机 关 
键 指标 详细 视图 。 


tatus Name* IP Roles Commission State Last Heartbeat Load Average Disk Usage Physical Mt 





2 node0 ^ 101075100 y 18Role(s) Commissioned 476sago 089 128 138 266iB/2156GIB 576iB/7 


e node1 101075101 y 5Role(s) Commissioned 689sago 0.00 0.00 000 20GiB/215.6 GIB 126iB/5 





图 2-9 
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(3) 行为 监控 : CM 提供 了 列表 和 图 表 来 查看 群集 上 进行 的 活动 ， 不 仅 显 示 当 前 正在 执行 的 
任务 行为 ， 还 可 以 通过 仪表 盘查 看 历史 活动 。 

(4) 事件 活动 : 监控 界面 可 以 查看 事件 ， 系 统管 理 员 可 以 通过 时 间 范 围 、 服 务 、 主 机 、 关 键 
字 等 字段 信息 过 滤 事 件 。 

C5) 报警 : 通过 配置 CM 可 以 对 指定 的 事件 产生 警报 ， 并 通过 电子 邮件 或 者 SNMP 的 事件 得 
到 制定 的 警报 通知 。 

(6) 日 志和 报告 :可 以 轻松 点 击 一 个 链接 查看 相关 的 特定 服务 的 日 志 条 目 ， 并 且 Cloudera 
Manager 可 以 将 收集 到 的 历史 监控 数据 统计 生成 报表 。 

Cloudera Manager 提供 的 诊断 功能 如 下 : 


CD 周期 性 服务 诊断 :CM 会 对 集群 中 运行 的 服务 进行 周期 性 的 运行 状况 测试 ， 以 检测 这 些 


服务 的 状态 是 否 正常 。 如 果 有 蜡 常 情况 ， 就 会 进行 告警 ， 有 利于 更 早 地 让 用 户 感知 集群 服务 存在 的 
问题 ， 如 图 2-10 所 示 。 














HDFS 汇 总 3 30519 1 小 时 





配置 的 容量 B 52 吉 字 节 /410 2 #+% Hors R o 
运行 状况 测试 
UD UM -使 用 ，49G =N 410G 
生 显 示 6 个 运行 良好 状况 
各 DataNodes 中 的 总 读 取 的 字 节 O 
OMER RHR 
用 户 禁用 了 测试 : 测试 HDFS 是 否 具有 过 多 副本 不 足 块 7b 
1b 

状态 

状态 摘要 PON > 
caia ona 各 DataNodes 中 的 总 写 入 的 字 节 加 
DataNode 图 2 个 运行 状 况 良好 

NameNode 和 1 个 运行 状况 良好 

SecondaryNameNode @ 1 个 运行 状况 良好 





图 2-10 


OD 日 志 采 集 及 检索 ， 对 于 一 个 大 规模 的 集群 ，CM 提供 了 日 志 的 收集 功能 ， 能 够 通过 统一 
的 界面 查看 集群 中 每 合 机器、 各 项 服务 的 日 志 ， 并且 能 够 根据 日 志 级 别 等 不 同 的 条 件 进行 检索 ,如 
图 2-11 所 示 。 

Go 系统 性 能 使 用 报告 。 CM 能 够 产生 系统 性 能 使 用 报告 ， 包 括 集群 的 CPU 使 用 率 、 单 节 
点 的 CPU 使 用 率 、 单 个 进程 的 CPU 使 用 率 等 各 项 性 能 数据 ， 这 对 于 Hadoop 集群 的 性 能 调试 很 重 
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日 志 
p 
其 他 设置 30 分 钟 1 小 时 
》 选择 源 ”主机 最 低 日 志 级 别 | INFO M 
下 一 步 已 搜索 的 机 器 :2, 
主机 ”日 志 级 别 ” 时 间 源 消息 
node0 INFO 2018 年 9 月 3 日 晚上 9 点 51 分 Server Auth successful for hbase (auth:SIMPLE)| 
查看 日 志文 件 巴 
node0 INFO 2018 年 9 月 3 日 晚上 9 点 51 分 Server Connection from 10.180.75.100 port: 502 
/ jenkins/workspace/generic-package-rhe 
jenkins” date: "Fri Aug 18 14:10:19 PI 
查看 日 志文 件 忆 
node0 INFO 2018 年 9 月 3 日 晚上 9 点 51 分  metastore Trying to connect to metastore with UR: 
查看 日 志文 件 巴 
node0 INFO 2018 年 9 月 3 日 晚上 9 点 51 分 metastore Opened a connection to metastore, curri 
查看 日 志文 件 己 


图 2-11 
Cloudera Manager 提供 的 集成 功能 如 下 : 


(1) 安全 配置 为 了 方便 Hadoop 大 数据 平台 与 原 有 身份 认证 系统 如 AD、LDAP 等 的 集成 ， 
CM 只 需 在 界面 上 配置 即 可 完成 。 

(2) Cloudera Manager API: 通过 Cloudera Manager API， 能 够 方便 地 将 CM 集成 到 企业 原 有 
管理 系统 集成 。 

(3) SNMP 集成 : CM 也 提供 了 方便 的 SNMP 集成 能 力 ， 只 要 简单 的 配置 ， 就 能 够 将 SNMP 
进行 集成 ， 并 且 将 集群 中 的 告警 信息 进行 转发 。 


2.3.3 Cloudera Manager 的 高 级 功能 


Cloudera manager 的 高 级 功能 在 免费 的 Express 版 本 中 是 不 提供 的 。 


COD 软件 滚动 升级 : Hadoop 版 本 升级 和 bug 修复 ， 通 常会 影响 业务 的 连续 性 。CM 提供 了 滚 
动 升级 的 功能 ， 支 持 Hadoop 平台 进行 升级 时 继续 对 外 提供 服务 以 及 应 用 。 

(2) 参数 版 本 控制 : 任何 时 候 进 行 配置 修改 并 保存 之 后 ，Cloudera Manager 会 对 该 配置 生成 
一 个 版 本 。Cloudera Manager 支持 查看 历史 配置 ， 并 能 回 滚 到 不 同 版 本 ， 从 而 为 集群 恢复 、 问 题 诊 
断 等 提供 了 可 靠 的 依据 和 方便 的 工具 。 

G) 备份 及 容 灾 系统 BDR: Cloudera 为 Hadoop 平台 提供 了 一 个 集成 的 、 易 用 的 灾 备 解决 方 
案 。BDR 为 灾 备 方案 提供 了 丰富 的 功能 ，CM 为 BDR 提供 了 完整 的 用 户 界 面 ， 实现 界面 化 的 数据 
备份 与 灾难 恢复 。 

(4) 数据 审计 : Cloudera Navigator 的 审计 功能 支持 对 于 数据 的 审计 和 访问 。 

(5) 安全 集成 向 导 : 启用 Kerberos 集成 和 外 部 安全 认证 集成 ， 如 支持 通过 内 部 数据 库 和 外 部 
服务 进行 用 户 认证 。 
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24 Cloudera 平台 参考 部 署 架 构 


按照 Cloudera 官方 手册 ， 这 里 归纳 总 结 出 Cloudera 大 数据 平台 参考 部 署 的 架构 指导 。 


2.4.1 Cloudera 的 软件 体系 结构 


Cloudera 的 软件 体系 结构 中 包含 系统 部 署 和 管理 ， 数 据 存储 ， 资 源 管理 ， 处 理 引 擎 ， 安 全 ， 
数据 管理 ， 工 具 仓库 以 及 访问 接口 模块 。 一 些 关 键 组 件 的 角色 信息 如 表 2-1 所 示 。 


表 2-1 Cloudera 一 些 关键 组 件 的 角色 信息 





工作 角色 

系统 部 署 和 管理 | Cloudera Manager Cloudera Manager Agent 
Host monitor 
Service monitor 
Event server 

数据 存储 DataNode 


JournalNode 


FailoberController 


RegionServer 


资源 管理 NodeManager 


Job HistoryServer 





History Server 





Impala Catalog Server Impala Daemon 





Impala StateStore 


ys 


Cloudera navigator Navigator keyTrustee 





Solr Server 





Navigator Metadata Server 





Nagivator Audit Server 





Hive Metastore 











Hive Server2 


2.4.2 ”群集 硬件 规划 配置 


集群 服务 器 按照 节点 承担 的 任务 分 为 管理 节点 和 工作 节点 。 管 理 节 点 上 一 般 部 署 各 组 件 的 管 
理 角色 ,工作 节点 一 般 部 署 有 各 角色 的 存储 、 容 器 或 计算 角色 。 根据 业 务 类 型 不 同 ,集群 具体 配置 
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也 有 所 区 别 。 


COD 实时 流 处 理 服务 集群 : 由 于 性 能 的 原因 ,Hadoop 实时 流 处 理 对 节点 内 存 和 CPU 有 较 
高 要 求 ， 基 于 Spark Streaming 的 流 处 理 消息 吞吐 量 可 随 着 节点 数量 增加 而 线性 增长 ， 配 置 可 参 
考 图 2-12。 








管理 节点 工作 节点 

处 理 器 两 路 Intels 至 强 处 理 器 ， 可 选用 ES- — 两 路 Intel* 至 强 处 理 器 ， 可 选用 E5- 
2630 处 理 器 2660 处 理 器 

内 核 数 6 核 /CPU (或 者 可 选用 8 核 /CPU)， 6 核 /CPU (或 者 可 选用 8 核 /CPU)， 主 
主 频 2.3GHz 或 以 上 频 2.0GHz 或 以 上 

内 存 128GB ECC DDR3 128GB ECC DDR3 

硬盘 2 个 2TB 的 SAS 硬盘 (3.5 +f), 4-12 个 4TB 的 SAS 硬盘 (3.5 +J), 
7200RPM， RAID1 7200RPM， 不 使 用 RAID 

网 络 至 少 两 个 1GbE 以 太 网 电 口 ， 推 荐 使 ”至 少 两 个 1GbE 以 太 网 电 口 ， 推 荐 使 用 
用 光 口 提高 性 能 。 光 口 提高 性 能 。 
可 以 两 个 网 口 链 路 聚合 提供 更 高 带 “可 以 两 个 网 口 链 路 聚合 提供 更 高 带 
宽 。 T. 

硬件 尺寸 1U EË 2U 1U HL 2U 

接 入 交换 机 48 口 千 兆 交换 机 ， 要 求全 千 兆 ， 可 堆 登 

聚合 交换 机 。 “4 口 SFP+ 万 兆 光 纤 核心 交换 机 ， 一 般 用 于 so 节点 以 上 大 规模 集群 

COD) 








图 2-12 


(2) 在 线 分 析 业 务 集群 : 在 线 分 析 业 务 一 般 基 于 Impala 等 MPP SQL 引擎 , 复杂 的 SQL 计 
算 对 内 存 容 量 有 较 高 要 求 ， 因 此 需要 配置 128GB 甚至 更 多 的 内 存 。 硬 件 参考 规划 如 图 2-13 所 示 。 


管理 节点 工作 节点 








处 理 器 两 路 Intels 至 强 处 理 器 ， 可 选用 ES- — 两 路 Intele 至 强 处 理 器 ， 可 选用 ES- 
2630 处 理 器 2650 处 理 器 

内 核 数 6 核 /CPU (或 者 可 选用 8 核 /CPU)， — 6 核 /CPU (或 者 可 选用 8 核 /CPU)， 主 
主 频 2.3GHz 或 以 上 频 2.0GHz 或 以 上 

内 存 128GB ECC DDR3 128GB -256GB ECC DDR3 

硬盘 2 个 2TB 的 sas 硬盘 (3.5 H), 12 个 4TB 的 sas 硬盘 (3.5 +f), 
7200RPM, RAID1 7200RPM, 不 使 用 RAID 

网 络 至 少 两 个 1GbE 以 太 网 电 口 ， 推 荐 使 ”至 少 两 个 1GbE 以 太 网 电 口 ， 推 荐 使 用 
用 光 口 提高 性 能 。 光 口 提高 性 能 。 
可 以 两 个 网 口 链 路 聚合 提供 更 高 带 ”可 以 两 个 网 口 链 路 聚合 提供 更 高 带 
宽 。 宽 。 

硬件 尺寸 1U 或 2U 2U 

接 入 交换 机 48 口 千 兆 交换 机 ， 要 求全 千 兆 ， 可 堆 登 

聚合 交换 机 4A 口 SFP+ 万 兆 光纤 核心 交换 机 ， 一 般 用 于 so 节点 以 上 大 规模 集群 

(可 选 》 





图 2-13 


GO 云 存储 业务 集群 : 云 存储 业务 主要 面向 海量 数据 和 文件 的 存储 和 计算 ， 强 调 单 节点 存储 
容量 和 成 本 ， 因 此 配置 相对 廉价 的 SATA 硬盘 ， 满 足 成 本 和 容量 需求 。 硬 件 规划 配置 如 图 2-14 
Brass 
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管理 节点 工作 节点 

处 理 器 两 路 Intels 至 强 处 理 器 ， 可 选用 ES- ”两 路 Intels 至 强 处 理 器 ， 可 选用 E5- 
2630 处 理 器 2660 处 理 器 

内 核 数 6 核 /CPU (或 者 可 选用 8 核 /CPU)， — 6 核 /CPU (或 者 可 选用 8 核 /CPU)， 主 
主 频 2.3GHz 或 以 上 频 2.0GHz 或 以 上 

内 存 128GB ECCDDR3 48GB ECC DDR3 

硬盘 2 个 2TB 的 SAS 硬盘 (3.5 +f), 12-16 个 6TB 的 SATA 硬盘 (3.5 ^T), 
7200RPM, RAID1 7200RPM, 不 使 用 RAID 

网 络 至 少 两 个 1GbE 以 太 网 电 口 ， 推 荐 使 ”至 少 两 个 GbE 以 太 网 电 口 ， 推 荐 使 用 
用 光 口 提高 性 能 。 光 口 提高 性 能 。 
ZW 口 链 路 聚合 提供 更 高 带 2. 口 链 路 聚合 提供 更 高 带 

硬件 尺寸 1U 或 2U 2U 或 3U 

接 入 交换 机 48 OFIERA, RETH, THEA 

聚合 交换 机 4 口 SFP+ 万 兆 光纤 核心 交换 机 ， 一 般 用 于 50 节点 以 上 大 规模 集群 








图 2-14 


2.4.3 Hadoop 集群 角色 分 配 


Hadoop 大 数据 平台 集群 角色 简称 如 图 2-15 所 示 ， 请 读者 务必 熟悉 这 些 简称 。 











ER NameNode HMS MetaStore 
ER DataNode Hs2 HiveServer2 

G Gateway 
ES ResourceManager 


E NodeManager 2 Spark Master 
EJ Job History Server ~ Spark Worker 


|. History Server 
EN HBase Master 
ES Reclonserver ca Hue Server 
GECE Rest Server Oorie Server 


Thrift Server Ey 


E Catelog Server Flume Agent 


IE impala StateStore. 
EN Impala Daemon EA Zookeeper Server 





Cloudera Manager ER JoumalNode 
Manager Service Failovercontroller 
图 2-15 


(1) 搭建 小 规模 集群 一 般 是 为 了 支撑 专 有 业务 ， 受 限于 集群 的 存储 和 处 理 能 力 ， 不 太 适 合用 
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于 多 业务 的 环境 。 可 以 部 署 成 一 个 HBase 的 集群 ， 也 可 以 部 署 成 一 个 分 析 集 群 ， 包 含 YARN, 
Impala。 在 小 规模 集群 中 ， 为 了 最 大 化 利用 集群 的 存储 和 处 理 能 力 ， 节 点 的 复 用 程度 往往 比较 高 ， 
如 图 2-16 所 示 。 对 于 那些 需要 两 个 以 上 节点 来 支持 HA 功能 的 ， 集 群 中 分 配 有 一 个 工具 节点 可 以 
承载 这 些 角色 ， 并 可 以 同时 部 署 一 些 其 他 工具 角色 (这 些 工具 角色 本 身 消耗 不 了 多 少 资源 ) ， 其 余 
节点 可 以 部 署 为 纯 工 作 节 点 。 




















工具 /代理 节点 工作 节点 
图 2-16 
OD 对 于 一 个 中 等 规模 的 集群 ， 节 点 数 一 般 在 20~ 200， 通 常 的 数据 存储 可 以 规划 到 几 百 太 


字 节 ， 适 用 于 一 个 中 型 企业 的 数据 平台 或 者 大 型 企业 的 业务 部 门 数据 平台 。 节 点 的 复 用 程度 可 以 降 
低 ， 可 以 按照 管理 节点 、 主 节点 、 工 具 节 点 和 工作 节点 来 划分 ， 如 图 2-17 所 示 。 

















管理 节点 工具 节点 工作 节点 
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管理 节点 上 安装 Cloudera Manager. Cloudera Management Service。 主 节点 上 安装 CDH 服务 以 
及 HA 的 组 件 。 工 具 节 点 部 署 HiveServer2、Hue Server. Oozie Server. Flume Agent、Sqoop Client. 
Gateway。 工 作 节点 的 部 署 和 小 规模 集群 类 似 。 

G) 大 规模 集群 的 数量 一 般 会 在 200 以 上 ， 存 储 容量 可 以 是 几 百 太 字 节 (TB) 甚至 是 拍 字 节 
(PB) 级 别 ， 适 用 于 大 型 企业 搭建 全 公司 的 数据 平台 ， 如 图 2-18 所 示 。 

这 里 HDFS JournalNode 由 3 个 增加 到 5 个 ，ZooKeeper Server 和 HBase Master 也 由 3 个 增加 
到 5 个 ，Hive Metastore 的 数量 由 1 个 增加 到 3 个 。 和 中 等 规模 的 集群 相 比 ， 部 署 的 方案 相差 不 大 ， 
主要 是 一 些 主 节点 可 用 性 的 增强 。 


Es EC Es £3 ES — 

*«— E EM E33 
s 
Km 








CMS HS2 6 ES 

E3 EJ EN 

管理 节点 工具 节点 工作 节点 
图 2-18 


2.4.4 网 络 拓扑 


对 于 一 个 小 规模 的 集群 或 者 单个 rack 的 集群 ， 所 有 的 节点 都 连接 到 相同 的 接 入 层 交 换 机 。 接 
入 层 交 换 机 配置 为 堆 全 的 方式 , 互 为 见 余 并 增加 了 交换 机 吞吐 。 所 有 的 节点 两 个 网 卡 配置 为 主 备 或 
者 负载 均衡 模式 ， 分 别 连 入 两 个 交换 机 。 在 这 种 部 署 模式 下 ， 接 入 层 交 换 机 充当 了 聚合 层 的 角色 。 

在 多 机 架 的 部 署 模式 下 ， 除 了 接 入 层 交 换 机 ， 还 需要 聚合 层 交换 机 ， 用 于 连接 各 接 入 层 交 换 
机 ， 负 责 跨 rack 的 数据 存 取 。 

在 机 架 上 分 配角 色 时 ， 为 了 避免 接 入 层 交 换 机 的 故障 导致 集群 的 不 可 用 ， 需 要 将 一 些 高 可 用 
的 角色 部 署 到 不 同 的 接 入 层 交 换 机 之 下 注意 是 不 同 的 接 入 层 之 下 ， 而 不 是 不 同 的 物理 rack F, 
很 多 时 候 ， 客 户 会 将 不 同 物理 rack 下 的 机 器 接 入 到 相同 的 接 入 层 交 换 机 下 ) 。 一 个 80 个 节点 的 物 
理 部 署 示例 如 图 2-19 所 示 。 
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Cloudera Manager (CM) 是 由 Cloudera 公司 提供 的 大 数据 组 件 自 动 部 署 和 监控 管理 工具 。 CDH 
是 Cloudera 公司 在 Apache Hadoop 社区 版 的 基础 上 做 了 商业 化 封装 的 大 数据 平台 。Apache Hadoop 
服务 的 部 署 非 常 烦琐 ， 需 要 手动 编辑 配置 文件 、 下 载 依赖 包 、 协 调 版 本 兼容 等 。Cloudera Manager 


以 GUI 的 方式 管理 Cloudera Hadoop 集群 ， 并 提供 向 导 式 的 安装 步骤 。 


3.1 安装 前 的 准备 工作 














Cloudera 大 数据 平台 默认 采用 在 线 自 动 化 安装 的 方式 ， 这 给 不 能 连接 互联 网 或 者 网 络 不 畅 的 
用 户 带 来 了 不 便 ， 很 多 时 候 是 由 于 网 络 问题 导致 安装 失败 。 所 以 这 里 我 们 采用 离线 安装 Cloudera 
Hadoop 集群 的 方法 。 

所 需 软件 列表 如 表 3-1 所 示 。 


表 3-1 离线 安装 Cloudera Hadoop 集群 所 需 软件 列表 
































软件 类 型 名 称 

Linux 操作 系统 CentOS-6.5-x86 64.ISO 

sftp 文件 传输 Winscp-5.9.2-Setup.exe 

CDH (Cloudera 公司 的 Hadoop 发 行 版 ) CDH-5.11.2-1.cdh5.11.2.p0.4-el6.parcel 
Cloudera Manager cloudera-manager-el6-cm5.11.2 x86 64.tar.gz 
MySQL 数据 库 MySQL 5.6.35 

MySQL 的 JDBC 驱动 mysgl-connector-java-5. 1 .42-bin.jar 





但 是 CDH 比 Apache Hadoop 对 硬件 的 要 求 更 高 ， 如 果 节 点 分 配 内 存 太 少 ， 就 很 容易 导致 安装 
失败 或 服务 无 缘 无 故 停止 。 哪怕 只 是 做 测试 , 也 建议 将 主 节点 分 配 8GB 以 上 的 内 存 、 从 节点 分 配 SGB 
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内 存 。 
本 次 部 署 的 Hadoop 测试 环境 是 三 个 节点 的 CDH 集群 ，node0 是 主 节 点 、nodel 和 node2 是 从 
节点 ， 群 集中 的 节点 承担 的 角色 如 表 3-2 所 示 ， 这 些 角色 在 本 书后 续 章 节 都 会 有 详细 阐述 。 


表 3-2 群集 中 的 节点 承担 的 角色 


Hadoop 集群 中 的 角色 说 明 

NameNode. DataNode (HDFS 集群 的 角色 ) 
ResourceManager (YARN 的 核心 角色 ) 
HMaster (HBase 的 角色 ) 

JobHistory Server (MapReduce 的 历史 作业 服务 器 角色 ) 
Hive Metastore Server (Hive 的 角色 ) 
DataNode (HDFS 集群 的 角色 ) 
RegionServer (HBase 的 角色 ) 
SecondaryNameNode (HDFS 集群 的 角色 ) 
NodeManager (YARN 框架 的 角色 ) 
DataNode (HDFS 集群 的 角色 ) 
RegionServer (HBase 的 角色 ) 

NodeManager (YARN 的 角色 ) 


IP 地 址 
10.10.75.100 





10.10.75.101 


10.10.75.102 











(1) 下 载 介质 软件 
Cloudera Manager 的 介质 下 载 地 址 为 http://archive-primary.cloudera.com/emS5/cm/5/, 节点 的 Linux 
操作 系统 是 Centos 6.5, CM 版 本 选择 的 是 5.11.2, 所 以 选择 cloudera-manager-el6-cm5.11.2_x86_64. 
tar.gz, WP 3-1 所 示 。Hadoop 生态 系统 需要 的 所 有 组 件 都 是 通过 Cleudera Manager 统一 管理 和 安 
装 的 。 




































































Qo @ http;/archive-primary.cloudera.com/cm5/cm/5, 
(B Index of /cmS/cm/5 «ue 
XHA ”编辑 (E) EEV) ”收藏 夫 (A) IAT) 帮助 (H) 
s VÀ Impala 和 Hive 的 关系 ( 洋 .. 图 hope can you at phone... [&] aws 如 何 防止 ddos 攻 十.… 

G SALE Z X50 p+Trar-pz ZUIT-U4-IV UIUI 2323 | 
心 cloudera-manager-el6-cm5.9.3 x86 64 tar gz 2017-07-13 09:33 557M 
a) cloudera-manager-el6-cm5.10.0 x86 64 tar gz 2017-01-25 20:42 615M 
À cloudera-manager-el6-cm5.10.1 x86 64.tar.gz 2017-03-28 13:08 617M 
心 cloudera-manager-el6-cm5.10.2 x86 64tar.gz 2017-06-27 19:07 606M 
心 cloudera-manager-el6-cm5.11.0 x86 64targz 2017-04-26 00:25 665M 
ru cloudera-manager-el6-cm5.11.1 x86 64tar.gz 2017-06-06 11:25 713M 
心 cloudera-manager-el6-cm5.11.2 x86 64tar gz 2017-08-17 13:11 702M 

图 3-1 


CDH (Cloudera 的 Hadoop 发 行 版 ) 介质 的 下 载 地 址 是 http://archive-primary.cloudera.com/cdh5/ 
parcels/， 这 里 选择 5.11.2 版 本 。 下 载 的 CDH 安装 包 一 定 要 和 CM 包 匹 配 。CDH 软件 包 以 .parcel 
结尾 ， 相 当 于 压缩 包 格 式 ， 这 里 要 下 载 三 个 文件 (包括 manifestjson) ， 特 别 注意 要 将 下 载 .shal 
文件 后 级 更 改 为 .sha， 如 图 3-2 所 示 。 
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e (B http://archive-primary.cloudera.com/cdh5/parcels/5.11.24 


B Index of /cdh5/parcels/5.. x | ^ @ 
XHA RRE EEV ERA IAM AH) 
s A Impala 和 Hive 的 关系 G*#.. [Æ] hope can you at phone.. [Z] aws 如 何 防止 ddos 攻 二 ... 





























Index of /cdhS/parcels/5.11.2.4 


Name Last modified Size Description 





49) Parent Directory - 
Eil CDH-5.11.2-1.cdh5.11.2 p0 4-el5 parcel 2017-08-22 19:57 1.4G 
国 CDH-5.11 2-1 cdh5 11 2 pO 4-el5 parcel shal 2017-08-22 19:57 41 
kil CDH-5.11.2-1.cdh5.11.2.p0.4-el6.parcel 2017-08-22 19:55 1.4G 
ál CDH-5.11.2-1.cdh5.11.2.p0.4-el6.parcel.shal 2017-08-22 19:55 41 
国 CDH-5.11.2-1.cdh5.11 2 p0.4-el7 parcel 2017-08-22 19:56 1.5G 
kál CDH-5.11 2-1 cdh5.11 2 p0.4-el7 parcel shal 2017-08-22 19:56 41 
[9] manifest json. 2017-08-22 19:57 71K 


图 3-2 


























将 下 载 的 CDH、CM、mysql 5.6 rpm 包 、mysqljdbc 驱动 、Oracle Java SDK 1.7 上 传 到 群集 主 

节点 机 器 上 的 /opt 目录 下 ， 安 装 过 程 中 就 不 需要 从 互联 网 上 下 载 文件 了 ， 实 现 了 离线 安装 。 
(2) 安装 Oracle 1.7 JDK 

CDH 的 运行 依赖 JDK 的 运行 环境 。 所 以 在 安装 CDH 之 前 一 定 要 先 安装 Oracle 1.7 JDK. 通过 
rpm -qa | grep jdk 命令 来 查询 系统 是 否 已 经 安装 自 带 的 openjdk 的 RPM 包 , WRA, 请 使 用 rpm -e 
--nodeps 把 它 卸 载 ， 然 后 使 用 rpm -ivh /opt/oracle-j2sdk1.7-x86 64.rpm 命令 来 安装 Oracle 1.7 JDK 
的 RPM 包 。 

还 要 记得 修改 vi /etc/profile， 添 加 以 下 内 容 : 


export JAVA HOME-/usr/java/jdk1.7.0 67-cloudera 


export PATH-.:$JAVA HOME/bin:$PATH 
export CLASSPATH-.:$JAVA HOME/lib/dt.jar:$JAVA HOME/lib/tools.jar 





保存 并 退出 vi 编辑 后 ， 执 行 source /etc/profile 使 之 生效 。 
(3) 关闭 SELinux 
SELinux 是 一 种 安全 子 系统 , 它 能 控制 程序 只 访问 特定 文件 , 但 是 在 多 数 情况 下 我 们 还 是 要 将 
其 关闭 ， 因 为 在 不 了 解 其 机 制 的 情况 下 ， 使 用 SELinux 会 导致 软件 安装 或 者 应 用 部 署 失 败 。 所 有 
节点 都 要 关闭 SELinux， 通过 修改 gedit /etc/selinux/config 下 的 SELINUX=disabled (重启 后 永久 
生效 ) 完成 。 
(4) 设置 主机 hosts 文件 ， 调 整 系统 参数 ， 关 闭 防火 墙 ， 禁 用 透明 大 页 ， 调 整 swap 和 文件 句 
柄 ， 安 装 Oracle JDK， 添 加 环境 变量 。 
编辑 配置 hosts 文件 ， 规 划 中 的 每 一 台 机 器 都 要 配置 集群 中 所 有 机 器 的 IP 和 主机 名 称 的 对 应 
关系 。 通 过 vi 命令 ， 编 辑 /etc/hosts 内 容 如 下 : 
* 10.10.75.100 node0 
* 10.10.75.101 nodel 
* 10.10.75.102 node2 
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C50 关闭 防火 墙 
我 们 要 搭建 集群 ， 集 群 之 间 就 会 有 通信 ， 服 务 器 之 间 要 是 有 通信 ， 就 要 有 相应 的 防火 墙 策 略 
开放 ， 因 此 我 们 要 将 防火 墙 关闭 ， 操 作 命 令 如 下 : 
service iptables stop 
service iptables off 
chkconfig iptables off 
(6) 调整 Linux 系统 参数 
修改 swappiness=0， 最 大 限度 使 用 物理 内 存 ， 然 后 才 是 swap 交换 分 区 ， 命 令 如 下 : 








echo 0 »/proc/sys/vm/swappiness 

echo "vm.swappiness-0" »» /etc/sysctl.conf 

echo "echo 0 > /proc/sys/vm/swappiness" »»/etc/rc.d/rc.local 
cat /proc/sys/vm/swappiness 








禁用 hugepage 透明 大 页 , 因为 它 可 能 会 带 来 CPU 利用 过 高 的 问题 。 将 这 个 参数 设置 为 nerver， 
为 了 保证 重启 生效 ， 要 把 命令 写 到 /ete/rc.local 中 ， 命 令 如 下 ; 

echo "echo never > /sys/kernel/mm/transparent hugepage/enabled" 
»»/etc/rc.d/rc.local 


echo "echo never > /sys/kernel/mm/redhat transparent hugepage/defrag" 
»»/etc/rc.d/rc.local 


修改 Linux 最 大 文件 句柄 数 〈 默 认 Linux 最 大 文件 句柄 数 为 1024) ， 命 令 如 下 : 


echo "* soft nofile 128000" >> /etc/security/limits.conf 

echo "* hard nofile 128000" >> /etc/security/limits.conf 

echo "* soft nproc 128000" >> /etc/security/limits.conf 

echo "* hard nproc 128000" >> /etc/security/limits.conf 

sed -i 's/1024/unlimited/' /etc/security/limits.d/90-nproc.conf 
ulimit -SHn 128000 

ulimit -SHu 128000 


(7) 配置 时 间 同 步 

在 所 有 要 安装 CDH 环境 的 设备 中 需要 设置 统一 时 钟 同步 服务 。 如 果 我 们 有 NTP 时 间 同 步 器 ， 
那么 我 们 需要 在 每 一 台 设 备 上 进行 NTP 客户 端 配 置 。 如 果 没 有 ， 我 们 就 将 其 中 一 台 主 机 作为 NTP 
时 间 同 步 服务 器 ， 对 这 台 主 机 进行 NTP 服务 器 配置 。 其 他 服务 器 来 同步 这 台 服 务 器 的 时 钟 ( 修 改 
NTP 配置 文件 /etc/ntp.conf， 指 向 企业 自己 的 时 间 同 步 服务 器 IP 地 址 〉。 

关于 如 何 部 署 NTP 时 间 同 步 服 务 器 ， 可 参阅 作者 的 博客 文章 
http://blog.51cto.com/lihuansong/2172270. 

(8) SSH 免 密 码 登录 

为 什么 要 设置 SSH 免 密码 登录 ? 其 原因 是 在 开启 Hadoop 的 时 候 需 要 多 次 输入 yes 和 root 密 
码 ， 这 是 我 们 所 不 能 忍受 的 ， 人 迫切 需要 实现 免 登录 的 功能 。 

对 于 集群 间 免 密 的 设置 很 简单 ， 只 要 知道 原理 就 好 做 了 。 分 别 在 每 台 机 器 上 配置 本 地 免 密 登 
录 ， 然 后 将 其 余 的 每 台 机 器 生成 的 公 钥 内 容 追 加 到 其 中 一 台 主 机 的 authorized keys 中 ， 再 将 这 台 
机 器 中 包括 每 台 机 器 公 钥 的 authorized keys 文件 发 送 到 集群 中 所 有 的 服务 器 ， 这 样 集 群 中 每 台 服 
务 器 就 都 拥有 所 有 服务 器 的 公 钥 了 , 集群 间 任 意 两 台 机 器 都 可 以 实现 免 密 登录 。 关于 如 何 配置 SSH 
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免 密码 登录 ， 可 参阅 作者 的 博客 文章 http://blog.51cto.com/lihuansong/2172326。 
(9) 安装 HTTP 服务 
CM 的 管理 界面 是 Web 访问 方式 ， 在 主 节点 上 安装 并 启动 HTTP 服务 ， 命 令 如 下 : 





yum install httpd 
chkconfig httpd on 
service httpd start 





(10) 安装 MySQL 数据 库 

CM 的 元 数据 需要 存储 在 数据 库 中 。CM 支持 MySQL. PostgreSQL. Oracle 等 数据 库 ， 通 常 
我 们 会 使 用 MySQL 数据 库 (MySQL 的 版 本 建议 为 5.6 UE) 。 关 于 如 何 安装 MySQL， 可 参阅 作 
者 的 博客 文章 http://blog.51cto.com/lihuansong/2172326。 

安装 好 MySQL, TE MySQL 客户 端 执行 命令 mysql -uroot -p， 输 入 密码 ， 在 MySQL 中 创建 相 
关 数 据 库 ， 命 令 如 下 : 
create database oozie DEFAULT CHARSET utf8 COLLATE utf8 general ci; 
create database hive DEFAULT CHARSET utf8 COLLATE utf8 general ci; 
create database sentry DEFAULT CHARSET utf8 COLLATE utf8 general ci; 
create database scm DEFAULT CHARSET utf8 COLLATE utf8 general ci; 
create database monitor DEFAULT CHARSET utf8 COLLATE utf8 general ci; 


create database metastore DEFAULT CHARSET utf8 COLLATE utf8 general ci; 
create database amon DEFAULT CHARSET utf8 COLLATE utf8 general ci; 





(11) 在 主 节点 node0 EHE, WE CM, HE% Parcels 
操作 命令 如 下 : 


tar xzvf /opt/cloudera-manager-el6-cm5.11.2 x86 64.tar.gz -C /opt 

cp /opt/CDH-5.11.2-1.cdh5.11.2.p0.4-el6.parcel 
/opt/cloudera/parcel-repo/ 

cp /opt/CDH-5.11.2-1.cdh5.11.2.p0.4-el6.parcel.sha 
/opt/cloudera/parcel-repo/ 

cp /opt/manifest.json /opt/cloudera/parcel-repo/ 











(12) 修改 config.ini， 同 步 agent 到 所 有 节点 
通过 vi 编辑 /opt/cm-5.11.2/etc/cloudera-scm-agent/config.ini， 把 其 中 的 server. host 值 改 为 主 节 
点 的 主机 名 ， 这 里 主 节点 是 node0， 如 图 3-3 所 示 。 








Ez root@node0:~ 
文件 (F) 编辑 (E) EEV) 搜索 (S) SRT) 帮助 CH) 
General] 


# Port that the CM server is listening on. 
server_port=7182 





图 3-3 
然后 把 config.ini 同步 到 其 他 节点 ， 命 令 如 下 : 


Scp -r /opt/cm-5.11.2 root@nodel:/opt/ 
scp -r /opt/cm-5.11.2 root8node2:/opt/ 
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(13) 所 有 节点 都 建立 cloudera-scm 用 户 
命令 如 下 : 





useradd --system --home-/opt/cm-5.11.2/run/cloudera-scm-server/ --no- 
create-home --shell-/bin/false --comment "Cloudera SCM User" cloudera-scm 








(14) 主 节点 上 初始 化 配置 数据 库 
CM Server 的 主要 数据 库 为 sm， 里 面包 含 了 服务 的 配置 信息 ， 每 一 次 配置 的 更 改 都 会 把 当前 
页 面 的 所 有 配置 内 容 添 加 到 数据 库 中 ， 以 保存 配置 修改 历史 。 
初始 化 配置 数据 库 sem 的 命令 如 下 : 








/opt/cm-5.11.2/share/cmf/schema/scm prepare database.sh mysql cm 
-hlocalhost -uroot -proot123 --scm-host localhost scm scm scm 





(15) 启动 CM 服务 和 CM Agent 


节点 上 启动 CM Server 和 Agent, (ñ elm F: 





/opt/cm-5.11.2/etc/init.d/cloudera-scm-server start 
/opt/cm-5.11.2/etc/init.d/cloudera-scm-agent start 





所 有 从 节点 启动 Agent， 命 令 如 下 : 
/opt/cm-5.11.2/etc/init.d/cloudera-scm-agent start 





3.2 Cloudera Manager 及 CDH 安装 


Cloudera Manager Server 和 Agent 都 启动 以 后 ， 就 可 以 进行 大 数据 基础 平台 的 安装 了 。 这 时 可 

以 通过 浏览 器 访问 主 节点 node0 的 7180 端口 测试 一 下 (由 于 Cloudera Manager Server 的 启动 需要 
花 点 时 间 ， 这 里 可 能 要 等 待 一 会 儿 才 能 访问 ) ,默认 的 用 户 名 和 密码 均 为 admin， 如 图 3-4 所 示 。 

[womanavanaer [2] | 


和 [2 nodeo ain vg) 





cloudera MANAGER 


C] Remember me 
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部 署 版 本 选择 免费 版 本 Cloudera Express， 免 费 版 本 除了 拥有 CDH 和 Cloudera Manager 核心 
功能 外 ， 和 群集 节点 数量 无 任何 限制 ， 如 图 3-5 所 示 。 付 费 的 Cloudera Enterprise 企业 版 本 还 拥有 
Cloudera Manager 高 级 功能 、Cloudera Navigator 审核 组 件 和 商业 技术 支持 。 


Cloudera Express Cloudera Enterprise Cloudera Enterprise 
Data Hub Edition Trial 
v 
License Froo 60 Days Annual Subscription. 
After thetrial perod, the product will continue to Upload License 


function as Cloudera Express. Your cluster and 
your data will remain unaffected. 
Cloucera Enterprise is available in three editions 


* Basic Edition 
* Flex Edition 
* Data Hub Edition 








Node Limit Unimited Unlimited. Unlimited 
CDH v v + 
Core Cloudera Manager Features v v v 
Advanced Cloudera Manager Features v A 
Cloudera Navigator * < 
Cloudera Navigator Key Trustee Pa 
图 3-5 


接 下 来 ， 选 择 需要 安装 的 节点 主机 。 由 于 我 们 在 各 个 节点 都 安装 并 启动 了 Agent， 各 个 节点 的 


配置 文件 config.ini 的 server. host 都 指向 主 节点 node0, 因此 我 们 可 以 在 “Currently Managed Hosts” 
(当前 管理 的 主机 〉 中 看 到 三 个 主机 ， 如 图 3-6 所 示 ， 全 部 勾 选 并 继续 。 如 果 cloudera-scm-agent 

没有 启动 ， 这 里 会 检测 不 到 主机 。 

cloudera MANAGER 








Specify hosts for your CDH cluster installation. 


New Hosts Currently Managed Hosts (3) 





These hosts do not belong to any clusters. Select some to form your cluster. 


Ë) Name 4 P Rack 

E) nodeo 10.1075.100 /default 
回 nodei 10.1075.101 /default 
E) node2 10.10.75.102 (default 








图 3-6 
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这 里 你 会 看 到 已 经 提前 下 载 好 的 Parcel 包 对 应 的 CDH 版 本 ， 如 CDH-5.11.2， 如 图 3-7 所 示 。 
cloudera MANAGER 





Cluster Installation 


Select Repository 


Cloudera recommends theuse of parceis for installation over packages, because parcels enable Cloudera Manager to easily menage 
deployment and upgrade of service binaries. Electing not to use parcels wil require you to manually upgrade packages on all hoste in 
and will prevent you from using Cloudera Managersroling upgrade capabilities. 

ChooseMethod O UscPackeges @ 


@ UseParcels (Recommended) @| More Options | Proxy Settings 


Selecttheversionof —  CDH-5.112-1.cdh5 1.2.0.4 
COH 5 cpi 7 1-1,cdh4. 7.19047 


Versions of CDHthat are too new for this version of Cloudera Manager (5.11.2) will not be shown. 


Additional Parcels =  ACCUMULO-1.7.2-5.50.ACCUMULOS 5.0.0.8 
© ACCUMULO-1.4 4-1.cdh4.5.0.p0.65 


@ None 


Back 








图 3-7 


如 果 配 置 本 地 Parcel 包 无 误 ， 那 么 Parcel 包 的 下 载 应 该 是 瞬间 就 完成 了 ， 并 由 CM 将 Parcel 
文件 包 分 发 到 各 个 节点 。 Parcel 包 分 发 完 后 ， 点 击 “Continue” 按 钮 ， 进 入 到 检查 群集 主机 正确 性 
的 界面 。Cloudera 会 进行 安装 前 各 节点 的 检查 工作 ， 比 如 Cloudera 建议 将 swappiness 设置 为 0 ， 
主机 时 钟 要 同步 、 禁 用 透明 大 页 等 ， 配 置 没有 问题 就 打 勾 ， 如 图 3-8 所 示 。 
Cluster Installation 


Inspect hosts for correctness C Run Again 
Validations 


Inspector ran on all 3 hosts. 

Individual hosts resolved their own hostnames correctly. 

No errors were found while looking for conflicting init scripts. 
No errors were found while checking /etc/hosts 

All hosts resolved localhost to 127.0.0.1 

All hosts checked resolved each others hostnames correctly and in a timely manner. 
Host clocks are approximately in sync (within ten minutes). 
Host time zones are consistent across the cluster. 

No users or groups are missing. 

No conflicts detected between packages and parcels. 

No kernel versions that are known to be bad are running. 


No problems were found with /proc/sys/vm/swappiness on any of the hosts. 


$|[$|$|$|$|$|$ [|| [S [S | 


No performance concerns with Transparent Huge Pages settings. 


Back oaa 








图 3-8 
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选择 需要 安装 的 大 数据 组 件 ， 我 们 可 以 选择 自 定义 安装 方式 “Custom Services”， 如 图 3-9 所 
A 





Fhoose the CDH 5 services that you want to install on your cluster. 


Choose a combination of services to install. 
O Core Hadoop 
HDFS, YARN (MapReduce 2 Included), ZooKeeper, Oozie, Hive, and Hue 


O Core with HBase 

HDFS, YARN (MapReduce 2 Included), ZooKeeper, Oozie, Hive, Hue, and HBase 
O Core with Impala 

HDFS, YARN (MapReduce 2 Included), ZooKeeper, Oozie, Hive, Hue, and Impala 
O Core with Search 

HDFS, YARN (MapReduce 2 Included), ZooKeeper Oozie, Hive, Hue, and Solr 
O Core with Spark 

HDFS, YARN (MapReduce 2 Included), ZooKeeper Oozie, Hive, Hue, and Spark 


O All Services 


HDFS, YARN (MapReduce 2 Included), ZooKeeper, Oozie, Hive, Hue, HBase, Impala, Solr, Spark, and Key-Value Store Indexer 





pustom Semices 





Choose your own services. Services required by chosen services will automatically be included. Flume can be added after your 





图 3-9 


这 里 选择 HBase. HDFS, Hive. YARN. ZooKeeper 等 服务 组 件 ， 如 图 3-10 所 示 。 





@ Custom Services 
Choose your own services, Services required by chosen services will automatically be included. Flume can be added after your initial cluster has been 
Service Type Description 

Eg H HBase Apache HBase provides random, real-time, read/write access to large data sets (requires HDFS and ZooKeeper). 

8 HDFS Apache Hadoop Distributed File System (HDFS) is the primary storage system used by Hadoop applications. HDFS 
of data blocks and distributes them on compute hosts throughout a cluster to enable reliable, extremely rapid com| 

回 Hive Hive is a data warehouse system that offers a SQL-like language called HiveQL. 

口 e Hue Hue is a graphical user interface to work with the Cloudera Distribution Including Apache Hadoop (requires HDFS, 

D « Impala Impala provides a real-time SQL query interface for data stored in HDFS and HBase. Impala requres Hive service a 
with Hue. 








图 3-10 


然后 给 集群 各 个 节点 分 配角 色 , 如 HDFS 需要 的 角色 有 NameNode( 名 称 节点 ,也 称 名 称 节点 )、 
SecondaryNameNode (第 二 名 称 节点 ) . DataNode (数据 节点 ) ，HBase 必需 的 角色 有 HMaster、 
RegionServer( 与 DataNode 在 同一 节点 上 ) 等 ， 如 图 3-11 所 示 。 如 果 系 统 配置 有 什么 问题 ， 在 安 
装 过 程 中 会 有 提示 ， 根 据 提示 安装 组 件 就 可 以 了 。 
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Cluster Setup 
Customize Role Assignments 
You can customize the role assignments for your new cluster here, but if assignments are made 
performance of your services. Cloudera does not recommend altering assignments unless you h 
You can also view the role assignments by host. 
H HBase 
Wil Master x 1 New IE Hease REST Server 
node0 Select hosts 
@ HDFS 
WE NameNode x 1New EZ SecondaryNameNode x 1New 
node0 node1 - 
EZ NFS Gateway Kl DataNode x 2New 
Select hosts node[12] - 
* Hive 
WE Gateway x 3 New E Hive Metastore Server x 1 New 
nodel[0-2] node0 
日 日 日 
Back 








图 3-11 


此 处 选择 Hive 组 件 的 元 数据 库 ， 使 用 MySQL 来 存储 Hive 元 数据 信息 ， 如 图 3-12 所 示 。 


[Cluster Setup 
|Database Setup 


Configure and test database connections. Create the databases first according to t^e Installing and Configuring an External Database section of the Installation Guide c 


Hive v Successful 
Database Host Name: * Database Type: Database Name : * Usemame:* Password: 
node0 MySQL J hive "c DE 3 


C Show Password 








图 3-12 
要 注意 的 是 ， 若 “Test Connection ”确认 数据 库 的 连通 性 没有 通过 ， 则 需要 复制 MySQL 的 
JDBC pe 目录 ， 复 制 命令 如 下 : 


cp /opt/mysql-connector-java-5.1.42-bin.jar /opt/cloudera/parcels/ 
CDH-5.11.2-1.cdh5.11.2.p0.4/1lib/hive/lib/ 

cp /opt/mysql-connector-java-5.1.42-bin.jar /opt/cm-5.11.2/share/ 
cmf/lib/ 

cp /opt/mysql-connector-java-5.1.42-bin.jar /usr/share/java/mysql- 
connector-java.jar 


最 后 ，CM 开始 配置 并 启动 各 项 服务 ， 直 到 安装 过 程 全 部 完成 ，CM 管理 界面 如 图 3-13 所 示 。 











第 3 章 Cloudera Manager 及 CDH 离线 安装 部 署 | 35 


Home - Cloudera Manager 全 | 


和 [& nodeo7: 








Home 


Status AllHealthissues Configuration Ez] ~ — All Recent Commands 





€ Cluster 1 i: Charts 

© moss Cluster CPU 

@ H Hease hd 

e Ors * = 

e eue X - 

e spak e 

@ H YARN (MR2 = coute M — m 
Q d Zookeeper z Cluster Network 10 


Cloudera Management Service 


@ 回 coudenw * - 








图 3-13 


3.3. ”添加 其 他 大 数据 组 件 


在 Cloudera Manager 中 单 击 “添加 服务 ”选项 ， 如 图 3-14 所 示 。 
主页 


状态 ”所 有 运行 状况 问题 配置 ESE. 所 有 最 新 命令 








@ Cluster 1 x 
e 号 主机 添加 服务 
@ Fume 
@ H HBase 停止 
e 目 HDFs 重启 
@ uve 
图 3-14 


在 添加 服务 向 导 中 ， 选 择 要 添加 的 服务 组 件 ， 如 “Spark (Standalone) ”， 如 图 3-15 所 示 。 
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k. Sentry Sentry RAF M SH 3S UEHORCCEHR EARNAN 
全 访问 。 

£ Soir Sor 是 一 个 分 布 式 服务 ， 用 于 编制 存储 在 HDFS 中 的 数据 的 素 引 并 搜索 这 
Eng. 

41 Spark Apache Spark is an open source cluster computing system. This 


service runs Spark as an application on YARN. 


* Spark (Standalone) Apache Spark is an open source cluster computing system. This is the 
standalone version of the service which does not use YARN for 


resource management. Cloudera recommends using Spark on YARN 
instead of this standalone version. 








图 Sqoop 1 Client Configuration and connector management for Sqoop 1 

@ Sqoop 2 Sqoop 是 一 个 设计 用 于 在 Apache Hadoop 和 结构 化 娄 据 存储 《如 关系 数 
RE) 之 问 高 效 地 传 答 大 批量 数据 的 工具 。Cloudera Manager 支持 的 版 
本 为 sqoop 2. 

BI YARN (MR2 included) Apache Hadoop MapReduce 2 0 (MRv2) 或 YARN 是 支持 MapReduce 
应 用 程序 的 数据 计算 框架 (需要 HOFS) 。 

并 Zookeeper Apache ZooKeeper 是 用 于 维护 和 同步 配置 数据 的 集中 服务 。 

图 3-15 


选择 Spark 角色 分 配 。 在 Spark 集群 中 重要 的 角色 有 Master 和 Worker: Master 负责 分 配 资源 ; 
Worker 负责 监控 自己 节点 的 内 存 和 CPU 等 状况 ， 并 向 Master 汇报 。 角 色 分 配 如 图 3-16 所 示 。 


将 Spark (Standalone) 服务 添加 到 Cluster 1 
自 定 义 Spark (Standalone) 的 角色 分 配 
你 可 以 在 比 处 自 定义 新 服务 的 角色 分 配 ， 但 请 注意 ， 如 果 分 配 不 正确 ( 绚 如 分配 到 个 主机 上 的 角色 太 多 ) ， 性 能 受到 影 几 


BD i ts# | 


EE Master < 1 I 奸 EE vore soy W History Server x 1 piit Willcstewey * 1 新 奸 
node0 nodel0-1] node + [ rodeo» 





图 3-16 
Spark(Standalone) 组 件 安装 完成 后 ， 如 图 3-17 所 示 。 
Cloudera MANAGER 


@ Spark (Standalone) (custeri) 1# ~ 


状态 实例 配置 命令 图 表 库 审核 Web UI ~ 快速 锋 接 ~ 


运行 状况 测试 annexa 


History Server 个 运行 状况 良好 
Master 才 1 个 运行 状况 良好 


Worker 三 2 个 运行 状况 良好 





图 3-17 


如 果 还 要 安装 其 他 Hadoop 生态 系统 的 组 件 ， 也 可 以 通过 Cloudera Manager 统一 管理 和 安装 。 


第 和 = 


分 布 式 文件 系统 HDFS 


为 了 解决 海量 数据 存储 问题 , Google 开发 了 分 布 式 文件 系统 GFS. HDFS 是 GFS 的 开源 实现 ， 
它 是 Hadoop 的 核心 组 件 之 一 。HDFS 提供 了 在 通用 硬件 集群 中 进行 分 布 式 文件 存储 的 能 力 ， 是 一 
个 高 容错 性 和 高 吞吐 量 的 海量 数据 存储 解决 方案 。 


4.4 HDFS 简介 


HDFS (Hadoop Distributed Filesystem，Hadoop 分 布 式 文件 系统 ) 以 流 式 数据 访问 模式 来 存储 
超大 文件 , 运行 在 由 廉价 普通 机 器 组 成 的 集群 上 ， 是 管理 网 络 中 跨 多 台 计 算 机 存储 的 文件 系统 。 它 
的 基本 原理 是 将 文件 切 分 成 同等 大 小 的 数据 块 ， 存 储 到 多 人 台 机 器 上 ， 将 数据 切 分、 容错 、 负 载 均衡 
等 功能 透明 化 。 

HDFS 上 的 文件 被 划分 为 相同 大 小 的 多 个 block 块 ， 以 块 作为 独立 的 存储 单位 〈 称 为 数据 块 ) 。 
为 什么 要 和 弄 成 块 来 存储 ? 第 一 ， 大 文件 用 一 个 节点 是 存 不 下 来 的 ， 势 必 分 成 块 ; 第 二 ， 网 络 传输 时 
万 一 宕 掉 ， 可 以 小 部 分 重 传 ; 第 三 ， 简 化 了 存储 管理 ， 同 时 元 数据 就 不 需要 和 块 一 同 存储 了 ， 用 一 
个 单独 的 系统 就 可 以 管理 这 些 块 的 元 数据 。 所 以 block 块 是 HDFS 中 最 基本 的 存储 单位 。 一 个 文件 
Hadoop 2.x 版 本 的 HDFS 块 默认 大 小 是 128MB (Hadoop 1.X 版 本 默认 块 大 小 是 64MB ) 。 默 认 块 
大 小 是 可 以 修改 的 ， 可 以 通过 dfs.block.size 设置 。 

除了 将 文件 分 块 ， 每 个 块 文件 也 有 副本 ， 这 是 为 了 容错 性 。 当 一 个 机 器 挂 了 ， 想 要 恢复 里 面 
的 文件 , 就 可 以 去 其 他 机 器 找 文件 的 副本 。 默认 是 三 个 副本 , 也 可 通过 hdfs-site.xml 中 的 replication 
属性 修改 副本 数量 。 

HDFS 的 副本 放置 策略 是 将 第 一 个 副本 放 在 本 地 节点 ,将 第 二 个 副本 放 到 本 地 机 架 上 的 另外 一 
个 节点 ， 而 将 第 三 个 副本 放 到 不 同 机 架 上 的 节点 。 这 种 方式 减少 了 机 架 间 的 写 流量 ， 从 而 提高 了 写 
的 性 能 。 机 架 故 障 的 概率 远 小 于 节点 故障 。 将 第 三 个 副本 放置 在 不 同 的 机 架 上 ,这 也 防止 了 机 架 故 
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障 时 数据 的 丢失 。 
总 之 ，HDFS 在 设计 之 初 就 是 针对 超大 文件 存储 的 ， 小 文件 不 会 提高 访问 和 存储 速度 ， 反 而 会 

降低 。 其 次 它 采用 了 流 式 数 据 访问 , 特点 是 一 次 写 入 多 次 读 取 。 再 有 就 是 它 运 行 在 普通 的 标准 硬件 
(如 PC 服务 器 ) 之 上 ， 即 使 硬件 故障 ， 也 可 以 通过 副本 元 余 容 错 机 制 来 保证 数据 的 高 可 用 。 


42 HDFS 体系 结构 


4.2.14 HDFS 架构 概述 
HDFS 采用 主 从 (Master/Slave) 架构 模型 ， 分 为 NameNode (名 称 节点 ) 、SecondaryNameNode 
(第 二 名 称 节点 ) 、DataNode (数据 节点 ) 这 几 个 角色 (遵从 中 国 读者 习惯 ， 本 文 混用 这 3 个 中 


英文 术语 ) ， 如 图 4-1 所 示 。 


HDFS 
Client 








- P4 ` ç w 
at ^ ^ ` 
zc E à v "n y P ^a 
DataNode ` DataNode DataNode DataNode . DataNode 


Fg 4-1 
一 个 典型 的 HDFS 集群 是 由 一 个 NameNode, — ` SecondaryNameNode 和 若干 个 DataNode( 通 


F 3 个 ) 组 成 的 ， 通 常 是 一 个 节点 一 个 机 器 ， 它 来 管理 对 应 节点 的 存储 。 





常 大 于 
(1) NameNode: 主要 负责 文件 系统 命名 空间 的 管理 、 存 储 文件 目录 的 Metadata 元 数据 信息 ， 
主要 包括 文件 目录 、block 块 和 文件 对 应 关系 ， 以 及 block 块 和 DataNode 数据 节点 的 对 应 关系 。 
(2) SecondaryNameNode: 是 NameNode 的 冷 备份 ， 用 来 减少 NameNode 的 工作 量 。 
G) DataNode: 负责 存储 客户 端 〈Client) 发 来 的 Block 数据 块 ， 执 行 数 据 块 的 读 写 操作 。 


4.2.2 HDFS 命名 空间 管理 
HDFS 的 命名 空间 包含 目录 、 文 件 和 块 。 在 HDFS1.0 架构 中 ， 在 整个 HDFS 集群 中 只 有 一 个 
i. HDFS 使 用 的 是 传统 的 





命名 室 间 ， 并 且 只 有 唯一 一 个 NameNode， 负 责 对 这 个 命名 空间 进行 管理 
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分 级 文件 体系 , 因此 用 户 可 以 像 使 用 普通 文件 系统 一 样 创建 、 删 除 目录 和 文件 以 及 在 目录 间 移 动 文 
件 、 重 命名 文件 等 。HDFS2.0 新 特性 federation 联邦 功能 支持 多 个 命名 空间 ， 并 且 允 许 在 HDFS 中 
同时 存在 多 个 NameNode。 


4.2.3 NameNode 


HDFS 集群 的 命名 空间 是 由 NameNode 来 存储 的 。NameNode 使 用 FsImage 和 EditLog 两 个 核 
心 的 数据 结构 ， 如 图 4-2 所 示 。EditLog 事务 日 志文 件 记录 每 一 个 对 文件 系统 元 数据 的 改变 ， 如 在 
HDFS 中 创建 一 个 新 的 文件 ， 名 称 节 点 将 会 在 EditLog 中 插入 一 条 记录 来 记录 这 个 改变 。 整 个 命名 
空间 的 信息 包括 文件 块 的 映射 表 等 都 存放 在 FsImage 文件 中 。 














* Y 
名 称 节点 目录 目录 目录 


Jt 
( FsImage per x 
p —. i 
EditLog X 



































E 
XEM 





























记录 了 所 有 针对 文件 的 创建 、 删 除 、 
重 命名 等 操作 











图 4-2 


名 称 节点 启动 时 ， 它 将 从 磁盘 中 读 取 FsImage 和 EditLog， 将 EditLog 中 的 所 有 事务 应 用 到 
FsImage， 然 后 将 新 的 FsImage 刷新 到 本 地 磁盘 中 ， 因 为 事务 已 经 被 处 理 并 已 经 持久 化 到 FsImage 
中 ， 然 后 就 可 以 截 去 旧 的 EditLog。 这 个 过 程 叫 作 检 查 点 。 

FsImage 和 Editlog 是 HDFS 的 重要 数据 结构 ， 如 果 这 些 文件 损坏 ， 就 会 导致 整个 集群 的 失效 。 
因此 可 以 配置 成 复制 多 个 FsImage 和 EditLog 的 副本 ， 一 般 会 在 本 地 磁盘 和 网 络 文件 系统 NFS 中 
分 别 存放 。 


4.2.4 SecondaryNameNode 


SecondaryNameNode 是 HDFS 架构 中 的 一 个 组 成 部 分 , 它 用 来 保存 名 称 节 点 中 对 HDFS 元 数 
据 信 息 的 备份 ， 减 小 Editlog 文件 大 小 ， 从 而 缩短 名 称 节点 重启 的 时 间 。 它 一 般 是 单独 运行 在 一 台 
机 器 上 。 

SecondaryNameNode 让 EditLog 变 小 的 工作 流程 如 下 《〈 见 图 4-3) : 


(1) SecondaryNameNode 会 定期 和 NameNode 通信 ， 请 求 其 停止 使 用 EditLog 文件 ， 暂 时 将 
新 的 写 操作 写 到 一 个 新 的 文件 editnew H, 这 个 操作 是 瞬间 完成 的 ， 上层 写 日 志 的 函数 完全 感觉 不 
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到 差别 。 

(2) SecondaryNameNode 通过 HTTP GET 方式 从 NameNode 上 获取 到 FsImage 和 EditLog X 
件 ， 并 下 载 到 本 地 的 相应 目录 下 。 

(3) SecondaryNameNode 将 下 载 下 来 的 FsImage 载 入 到 内 存 ， 然 后 一 条 一 条 地 执行 EditLog 
文件 中 的 各 项 更 新 操作 ， 使 内 存 中 的 FsImage 保持 最 新 。 这 个 过 程 就 是 EditLog 和 FsImage 文件 合 
并 。 

(4) SecondaryNameNode 执行 完 (3) 操作 之 后 ， 会 通过 post 方式 将 新 的 FsImage 文件 发 送 
到 NameNode 节点 上 。 

(5) NameNode 将 从 SecondaryNameNode 接收 到 的 新 的 FsImage 蔡 换 旧 的 FsImage 文件 ， 同 
时 将 Edit.new 替换 EditLog 文件 ， 从 而 减 小 EditLog 文件 大 小 。 

Primary Namenode Secondary Namenode 







2. Retrieve fsimage and edits from primary 
edits.new 


Ls 
fsimage 


fsimage.ckpt 


4. Transfer checkpoint to primary 





图 43 


从 上 面 的 过 程 可 以 看 出 ， 第 二 名 称 节点 相当 于 为 名 称 节点 设置 一 个 “检查 点 ”， 周 期 性 备份 
名 称 节点 中 的 元 数据 信息 ， 但 第 二 名 称 节 点 在 HDFS 设计 中 只 是 一 个 冷 备份 ， 并 不 能 起 到 “ 热 备 
份 ”的 作用 。HDFS 设计 并 不 支持 当 名称 节 点 故障 时 直接 切换 到 第 二 名 称 节点 。 
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4.3 HDFS 2.0 新 特性 


4.3.1 HDFS HA 


HDFS1.0 中 虽然 存在 一 个 第 二 名 称 节点 (SecondaryNameNode ), 但 第 二 名 称 节 点 无 法 提供 “ 热 
备份 ”功能 ， 一 旦 名 称 节点 发 生 故 障 ， 系 统 需 要 停机 恢复 。HDFS2.0 采用 HA (High Availability) 
架构 ， 用 于 解决 NameNode 单 点 故障 问题 。 该 HA 特性 通过 热 备 份 的 方式 为 主 NameNode 提供 一 
个 备用 者 , 一 旦 主 NameNode 出 现 故 障 ， 可 以 迅速 切换 至 备用 NameNode， 从 而 实现 不 间断 对 外 提 
供 服 务 。 

一 个 典型 的 HDFS HA 架构 如 图 4-4 所 示 ， 它 通常 由 两 个 NameNode 组 成 : 一 个 处 于 Active 
状态 ， 另 一 个 处 于 Standby IRA. Active NameNode 对 外 提供 服务 ， 比 如 处 理 来 自 客户 端的 请 求 ， 
而 Standby NameNode 则 不 对 外 提供 服务 ， 仅 同步 Active NameNode 的 状态 ， 以 便 能 够 在 它 失败 时 
快速 进行 切换 。 

注意 ，HA 中 的 两 个 NameNode 属于 同一 命名 空间 。 两 个 NameNode 为 了 能 够 实时 同步 元 数据 
信息 (实际 上 是 共享 EditLog) ， 会 通过 一 组 称 作 JournalNodes 的 独立 进程 相互 通信 。 

每 个 Journal 节点 暴露 一 个 简单 的 RPC 接口 ， 允 许 NameNode 读 取 和 写 入 数据 ， 数 据 存放 在 
Journal 节点 的 本 地 磁盘 。 当 Active NameNode 写 入 EditLog 时 ， 它 向 集群 的 所 有 JournalNode 发 送 
写 入 请 求 ， 当 多 数 节点 回复 确认 成 功 写 入 之 后 ，EditLog 就 认为 是 成 功 写 入 。 

StandbyNameNode 负责 监听 ， 一 旦 发 现 有 新 数据 写 入 ， 就 读 取 这 些 数据 ， 并 加 载 到 自己 内 存 
中 ， 以 保证 自己 内 存 状 态 与 Active NameNode 保持 基本 一 致 。 





Automatic NameNode HA 


Active 状 态 Standby 状 态 
NameNode NameNode 
Ë 


从 JournalNode 读 取 数 据 





向 JournajNode 写 





JournalNode JournalNode JournalNode 
图 44 


Hadoop 使 用 ZooKeeper 支持 自动 故障 转移 ，ZooKeeper 的 任务 包括 NameNode 失败 检测 和 
NameNode 选举 。 
HDFS HA 集群 的 配置 如 下 : 
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(1) NameNode 机 器 : 运行 Active NameNode 和 Standby NameNode 的 机 器 配置 应 保持 一 样 。 

(2) 当 Active 状态 的 NameNode 宕 机 后 ， 需 要 手动 切换 到 Standby 状态 的 NameNode 来 继续 
提供 服务 。 如 果 要 实现 自动 故障 转移 ， 必 须 依赖 ZooKeeper。 

(3) JournalNode 机 器 : 运行 JournalNode 的 机 器 ， 这 些 守 护 进程 比较 轻 量 级 ， 可 以 部 署 在 其 
他 服务 器 上 。 至 少 需要 部 署 3 个 JournalNode 节点 ， 以 便 容 忍 一 个 节点 故障 。 通 常 配置 成 奇数 ， 例 
如 总 数 为 N， 则 可 以 容忍 (N-1)/2 台 机 器 发 生 故障 后 不 影响 集群 正常 运行 。 

(4) 配置 了 NameNode HA 后 ， 客 户 端 可 以 通过 HA 的 逻辑 名 称 去 访问 数据 ， 而 不 用 指定 某 
一 台 NameNode， 当 某 一 台 NameNode 失效 自动 切换 后 ， 客 户 端 不 必 更 改 HDFS 的 连接 地 址 ， 仍 可 
通过 逻辑 名 称 去 访问 。 

需要 注意 的 是 ，Standby NameNode 同时 完成 了 原来 SecondaryNameNode 的 checkpoint. (检查 

点 ) 功能 ， 因 此 不 需要 再 独立 部 署 SecondaryNameNode。 


4.3.2 HDFS Federation 


HDFS1.0 的 单 NameNode 设计 不 仅 存在 单 点 故障 问题 ， 还 存在 可 扩展 性 和 性 能 问题 。 只 有 一 
个 NameNode， 不 利于 水 平 扩展 。HDFS Federation CHDFS 联邦 ) 特性 允许 一 个 HDFS 集群 中 存在 
多 个 NameNode 同时 对 外 提供 服务 ， 这 些 NameNode 分 管 一 部 分 目录 (水平 切 分 ) ， 彼 此 之 间 相 
互 隔 离 ， 但 共享 底层 的 DataNode 存储 资源 。 每 个 NameNode 是 独立 的 ， 不 需要 和 其 他 NameNode 
协调 合作 。 

如 图 4-5 所 示 ，Federation 使 用 了 多 个 独立 的 NameNode/NameSpace 命名 空间 。 这 些 
NameNode 之 间 是 联合 的 ， 也 就 是 说 ， 它 们 之 间 相 互 独立 且 不 需要 互相 协调 ， 各 自分 工 管理 自己 的 
区 域 。 分 布 式 的 DataNode 被 用 作 通 用 的 数据 块 存储 设备 。 每 个 DataNode 要 向 集群 中 所 有 的 
NameNode 注册 ， 且 周期 性 地 向 所 有 NameNode 发 送 心 跳 和 块 报 告 ， 并 执行 来 自 所 有 NameNode 
的 命令 。 每 一 个 DataNode 作为 统一 的 块 存储 设备 被 所 有 NameNode 节点 使 用 。 

每 一 个 DataNode 节点 都 在 所 有 的 NameNode 进行 注册 。 DataNode 发 送 心跳 信息 、 块 报告 到 
所 有 NameNode， 同 时 执行 所 有 NameNode 发 来 的 命令 。 


Namespace 


Block Storage 
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44 HDFS 操作 常用 shell 命令 


4.4.1 HDFS 目录 操作 和 文件 处 理 命令 


我 们 可 以 利用 HDFS shell 命令 对 Hadoop 进行 操作 ， 利 用 这 些 命令 可 以 完成 HDFS 中 文档 的 
上 上传、 下载 、 复 制 、 查 看 文件 信息 、 格 式 化 名 称 节点 等 操作 。 使 用 Cloudera CDH 版 本 安装 Hadoop 


Wr, 默认 建立 的 hdfs 用 户 是 对 集群 文件 的 最 高 权限 用 户 。 


如 图 4-6 所 示 ， 在 名 称 节点 node0 上 运行 


jps 命令 查看 进程 ， 发 现 NameNode 进程 存在 。 在 其 他 工作 节点 〈 如 nodel ) 上 运行 jps 命令 查看 进 


程 ， 发 现 DataNode 进程 存在 ， 如 图 4-7 所 示 。 


[rooténodeo ~]# su - hdfs 


[hdfsünodeO +]$ jps 
4087 NameNode 
66949 Jps 


图 4-6 


[root@nodel ~]# su - hdfs 
[hdfsGnodel -]$ jps 

3358 DataNode 

3356 SecondaryNameNode 
29670 Jps 

[hdfs@nodel -]$ 


图 4-7 





在 终端 输入 命令 , 查看 hdfs dfs 总 共 支 持 哪些 操作 , 命令 执行 后 会 显示 如 图 4-8 所 示 的 结果 (这 


里 只 列 出 部 分 命令 )。 


hdfsünodeo ~]$ hdfs dfs 
sage: hadoop fs [generic options] 


<dst>] 


-appendToFile <localsrc> ... 
[-cat [-ignoreCrc] «sro ...] 
[ -checksum «src» ...] 

-chgrp [-R] GROUP PATH...] 
-chmod [-R] «MODEL, MODE]... | 


OCTALMODE» PATH...] 





-chown [-R] [OWNER][:[ GROUP]] PATH...] 
[-copyFromLocal [-f] [-p] [-U «localsrO ... 
[-copyToLocal [-p] [-ignoreCrc] [-crc] <src> ... 
-count [-q] [-h] [-v] [-x] «path» ...] 

-cp [-f] [-p | -pltopax]] «sro ... «dst»] 
-createSnapshot <snapshotDir> [ <snapshotName>]] 
[-deleteSnapshot <snapshotDir> <snapshotName>] 
[-df [-h] [<path> ...]] 

-du [-s] [-h] [-x] «path» ...] 
-expunge] 

-find «path» ... «expressiom ...] 
[-get [-p] [-ignoreCrc] [-crc] «src ... 
[-getfacl [-R] 《path>] 

-getfattr [-R] (-n name | -d) [-e en] <path>] 
-getmerge [-nl] «src? «localdst?] 

-help [cmd ...]] 


<dst>] 
<localdst>] 


<localdst>] 


[-mkdir [-p] «path» ...] 
[-moveFromLocal <localsrc> ... 
-moveToLocal «src» <localdst>] 
-mv <src> ... <dst>] 

-put [-f] [-p] [-U «localsro ... 


图 4-8 


«dst»] 





<dst>] 


[-l1s [-C] [-d] [-h] [-q [-RI [-t] [ -SI [-r] [ -u) (<path> ... 


11 
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可 以 看 出 hdfs dfs 命令 的 统一 格式 类 似 “hdfs dfs -ls” 这 种 形式 ， 即 在 “-” 后 面 跟 上 具体 的 操 
TE. 需要 查看 某 个 命令 的 作用 (例如 ,查询 ls 命令 的 具体 用 法 ) BF, 可 以 采用 如 图 4-9 所 示 的 命令 。 





hdfsünodeo ~]$ hdfs dfs -help ls 
Fis [-C] E-d] [-h] [-q C-RI [-t] [=S] [-r] [-ul [<path> ...1 : 
List the contents that match the specified file pattern. If path is not 


specified, the contents of /user/«currentUser? will be listed. For a directory a 


list of its direct children is returned (unless -d option is specified). 


Directory entries are of the form: 
permissions - userId groupId sizeOfDirectory(in bytes) 
modificationDate(yyyy-MM-dd HH: mm) directoryName 


and file entries are of the form: 
permissions numberOfReplicas userId groupId sizeOfFile(in bytes) 
modificationDate(yyyy-MM-dd HH:mm) fileName 


-C Display the paths of files and directories only. 

-d Directories are listed as plain files. 

-h Formats the sizes of files in a human-readable fashion 
rather than a number of bytes. 

-q Print ? instead of non-printable characters. 

-R Recursively list the contents of directories. 

-t Sort files by modification time (most recent first). 

-S Sort files by size. 

-r Reverse the order of the sort. 

-u Use time of last access instead of modification for 
display and sorting. 

hdfsünodeo -1$ 





图 4-9 





HDFS 目录 操作 和 文件 操作 命令 如 图 4-10 所 示 。hdfs dfs -mkdir -p /doc 命令 表示 在 HDFS 根 目 


录 下 创建 一 个 称 为 doc 的 目录 。hdfs dfs -ls / 命令 表 





示 列 出 HDFS 根 目录 下 的 内 容 。 使 用 hdfs dfs -put 


命令 把 本 地 文件 系统 的 /var/lib/hadoop-hdfs/text.txt 上 传 到 根 目录 的 doc 目录 下 ， 然 后 查看 一 下 文件 


是 否 能 成 功 上 传 到 HDFS 中 。 


4.4.2 


HDFS 提供 了 Web 管理 界面 ， 可 以 很 方便 地 查看 HDFS 相关 信息 。 需 要 在 Linux 系统 打开 浏览 器 


[ hdfsünodeo -1$ hdfs dfs -mkdir -p /doc 
[ hdfsünodeo ~]$ hdfs dfs -ls / 
Found 5 items 


drwxr-xr-x  - hdfs supergroup 0 2018-08-26 19:33 /doc 
drwxr-xr-x — - hbase hbase 0 2018-08-25 22:13 /hbase 
drwxr-xr-x - root supergroup 0 2018-05-19 14:38 /spool 
drwxrwxrwx  - hdfs supergroup 0 2018-08-26 19:05 /tmp 
drwxr-xr-x hdfs supergroup 0 2018-05-19 16:19 /user 
[ hdfsünodeo -$ cat »test. txt <<EOF 

> test 

D abc 

> EOF 


[ hdfsünodeo ~]$ pwd 

/var lib/hadoop- hdfs 

[ hdfsĝnode0 -1$ hdfs dfs -put /var/lib/hadoop-hdfs/test. txt /doc 

[ hdfsünodeo -1$ hdfs dfs -ls /doc 

Found 1 items 

-rw-r--r-- 2 hdfs supergroup 9 2018-08-26 19:35 /doc/test. txt 
[ hdfsünodeo -1$ 





图 4-10 


HDFS 的 Web 管理 界面 
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在 浏览 器 地 址 栏 中 输入 HDFS 的 NameNode 的 Web 访问 地 址 ， 端 口号 为 50070， 如 图 4-11 所 示 。 


Namenode information - Mozilla Firefox 









文件 (E) 编辑 (E) 查看 (V) 历史 (S) HEG IAD HMH) 
í Namenode information E] 


€ [2 nodeo eal &tab-overvie 








Startup Progress Utilities 


Overview 









Started: Sat Aug 25 12:30:44 +0800 2018 
Version: 2.6.0-cdh5.11.2, r56184d7344e8a18a3dd9b519496eecbb9a2e0895 
Compiled: Sat Aug 19 05:14:00 40800 2017 by jenkins from Unknown 


Cluster ID: clusteri2 


Block Pool ID: 






BP-1531154631-10. 10. 75. 100-1526614730248 





图 4-11 


TE HDFS 的 Web 管理 界面 中 , tü @& Overview. DataNodes, DataNode Volume Failures, Snapshot. 
Startup Progress 和 Utilities 等 菜单 项 。 你 可 以 点 击 每 个 菜单 项 , 查询 各 种 信息 , 如 点 击 “Datanodes”， 
查看 数据 节点 信息 ， 如 图 4-12 所 示 。 


Datanode usage hist 





Disk usage of each DataNode (4) 











bw 25 -] entries Search 
Block pool 
Node last contact Capacity Blocks used Version 
Wnoded (10. 10. 75, 100: 50010) Sun Aug 26 20:00:34 205.1 GB "f 4 4.88 MB (0%) 2.5.0-cdh5. 11.2 
40800 2018 
Wnodel (10.10.75, 101:50010) Sun Aug 26 20:00:34 205.1 GB 4&3 4.88 MB (0%) 2. 6.0-cdh5. 11.2 
40800 2018. 


4.4.8 dfsadmin 管理 维护 命令 


dfsadmin 是 一 个 多 任务 客户 端 工 具 , 用 来 显示 HDFS 运行 状态 和 管理 HDFS, 支持 的 命令 如 图 
4-13 所 示 。 
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hdfsünodeO -]$ hdfs dfsadmin -help 

dfs dfsadmin performs DFS administrative commands. 

ote: Administrative commands can only be run with superuser permission. 
he full syntax is: 


jhdfs dfsadmin 

[-report [-live] [-dead] [ -decommissioningll 
[-safemode «enter | leave | get | wait] 

[ - saveNamespace] 

[-rollEdits] 

[-restoreFailedStorage true| false| check] 
[-refreshNodes] 

[-setQuota «quota» «dirname»...«dirname] 

[-clrQuota <dirname>...<dirname>] 

[-setSpaceQuota «quota» «dirname;..,«dirname] 
[-clrSpaceQuota «dirname»...«dirname»] 

[ - finalizeUpgrade] 

[- rollingUpgrade [ «query| preparel finalize>]] 
[-refreshServiceAcl] 

[-refreshUserToGroupsMappings] 
[-refreshSuperUserGroupsConf iguration] 

[ - refreshCallQueue] 

[-refresh «host: ipc port» «key» [argi..argn] 
[-reconfig «datanode|...» «host: ipc port? «start| status| properties>] 
[-printTopologyl 

[-refreshNamenodes datanode host: ipc port] 
[-deleteBlockPool datanode host:ipc port blockpoolld [ force]] 
[-setBalancerBandwidth «bandwidth in bytes per second] 
[-fetchImage «local directory] 

[-allowSnapshot «snapshotDir] 

[-disallowSnapshot 《snapshotDir>] 

[-shutdownDatanode «datanode host: ipc port» [ upgrade] ] 
[-getDatanodeInfo (datanode host: ipc port?] 

[-metasave filename] 


[-triggerBlockReport [-incremental] <datanode host: ipc port?] 
图 4-13 


例如 , 运行 hdfs dfsadmin -report 命令 , 显示 HDFS 文件 系统 的 基本 信息 和 统计 信息 , 如 图 4-14 
所 示 ， 与 HDFS 的 Web 界面 一 致 。 


hdfs@node0 -]$ hdfs dfsadmin -report 
Configured Capacity: 440457404416 (410.21 GB) 
Present Capacity: 408493486080 (380.44 GB) 
IDFS Remaining: 408483254272 (380.43 GB) 

IDFS Used: 10231808 (9.76 MB) 

DFS Used: 0.005 

Under replicated blocks: 15 

Blocks with corrupt replicas: 0 

issing blocks: 0 

issing blocks (with replication factor 1): 0 











Live datanodes (2) 


Name: 10.10.75. 101: 50010 (node1) 

Hostname: nodei 

Rack: /default 

IDecommission Status : Normal 

Configured Capacity: 220228702208 (205.10 GB) 
DFS Used: 5115904 (4.88 MB) 

Non DFS Used: 0 (0 B) 

DFS Remaining: 208491122688 (194.17 GB) 

DFS Used%: 0.005 

DFS Remaining%: 94.67% 

Configured Cache Capacity: 657457152 (627 MB) 
Cache Used: 0 (0 B) 

Cache Remaining: 657457152 (627 MB) 

Cache Used: 0.00% 

Cache Remaining%: 100.00% 

ceivers: 2 

Last contact: Sun Aug 26 20:35:10 CST 2018 
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4.4.4 namenode 命令 


运行 namenode 命令 进行 格式 化 、 升 级 回 滚 等 操作 ， 支 持 命令 如 图 4-15 所 示 。 
[ natstnodeo -]$ hdfs namenode -help 


Usage: hdfs namenode [-backup] | 

-checkpoint] | 

-format [-clusterid cid ] [-force] [-nonInteractive] ] | 
-upgrade [-clusterid cid] [-renameReservedck-v pairs»] ] | 
-upgradeOnly [-clusterid cid] [-renameReservedXk-v pairs>] ] | 
-rollback | 

-rollingUpgrade <rollback| downgrade| started» ] | 
-finalize] | 

-importCheckpoint] | 

-initializeSharedEdits] | 

-bootstrapStandby] | 

-recover [ -forcel ] | 

-metadataVersion ] ] 








图 4-15 


45 Java 编程 操作 HDFS 实践 


Hadoop 主要 是 使 用 Java 语言 编写 实现 , 这 里 介绍 HDFS 常用 Java API 及 其 编程 实例 。 Hadoop 
中 关于 文件 操作 类 基本 上 全 部 都 是 在 “org.apache.hadoop.fs” 包 中 ， 这 些 API 能 够 支持 的 操作 包括 
打开 文件 、 读 写 文件 、 删 除 文件 等 。 

Hadoop 编程 开发 环境 : 安装 好 Java JDK1.7 和 Eclipse 开发 工具 ， 解 压 Hadoop 的 源 文件 (不 
是 源码 文件 ， 而 是 编译 好 的 安装 文件 ) ， 操 作 系 统 环境 采用 Windows 或 Linux 均 可 。Hadoop 源 文 
件 在 整个 Hadoop 开发 过 程 中 都 会 用 到 ， 因 为 很 多 依赖 包 都 出 自 里 面 。 

启动 Eclipse 工具 ， 编 写 Java 程序 。 为 了 编写 一 个 能 够 与 HDFS 交互 的 Java 应 用 程序 ， 一 般 
需要 向 Java 工程 中 添加 JAR 包 ， 如 图 4-16 所 示 ， 点 击 “Add External JARs... ”按钮 ， 导 入 相应 的 
Hadoop 的 JAR 包 ， 因 为 这 些 JAR 包含 了 Hadoop 的 Java API, 





S New Java Project D x 


Java Settings - 
Define the Java build settings. 


(9 Source UZ Projects BÀ Libraries 9; Order and Export 
JARs and class folders on the build path: 





fà hadoop-common-2.7.3;jar - CAhadoop-2.7.3VsF Add JARs... 
hadoop-hdfs-2.7.3jar - CAhadoop-2.7.3VshareV 

hadoop-hdfs-nfs-273jar - Cihadoap-27.3\sh| 
加 hadoop-nfs-27.3jar - CNhadoop-2.7.3\share\h Mii vada. 

BÀ JRE System Library [JavaSE-1.7] | 






Adá Library... 
Add Class Folder... 


Add External Class Folder... 











图 4-16 
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以 下 访问 HDFS 的 应 用 程序 用 来 检测 HDFS 文件 系统 doc 目录 下 是 否 存在 


-个 test.txt 的 文件 : 





package hadoopapi; 
import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.FileSystem; 
import org.apache.hadoop.fs.Path; 
public class hdfs test { 
public static void main(String[] args) 
try 
í 


{ 


String filename="/doc/test.txt"; 
Configuration conf-new Configuration (); 
conf.set("fs.defaultFS", 


conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.D 


FileSystem fs-FileSystem.get(conf); 
if(fs.exists(new Path(filename))) ( 


System.out.println("this file is exist!"); 


Jelse ( 


System.out.println("this file is not exist!"); 


) 
}catch (Exception e)( 
e.printStackTrace(); 





B 


VERS 


编译 无 
作 界 面 左 侧 的 Package Explorer 面板 中 , 在 工程 项 目 名 称 上 右 击 , d 


"hdfs://node0:8020") 


接 下 来 把 应 用 程序 生成 JAR 包 ， 部 署 到 Hadoop 大 数据 平台 1 


; 


istributedFileSystem"); 





MAT 


-运行 。 在 Eclipse T. 





如 图 4-17 所 示 。 


E 弹 出 的 菜单 中 选择 “Export…”， 





File Edit Source Refactor Navigate Search 


na new 
Go Into 


Ë Package Explor Open in New Window 


Open Type Hierarchy 





~ ie? hadoopa| Show In 
v (Q8 src 
v Bi ha |Ë) Copy 
m = Copy Qualified Name 
> mÀ JRE Sy È Paste 
v Bü hadoc X Delete 
> hac 
Remove from Context 
hac 
h Build Path 
ac 
局 hal Source 
^ $2 HBaseDei Refactor 
Z RemoteS) yy Import... 
> $$ SimpleAp EFE 





123 GtormDler 


Project Run Window Hel 


> 


F4 
Alt+Shift+W > 


Ctrl+C 


Ctrl+V 
Delete 


Ctrl « Alt- Shift- Down 


E 
Alt+Shift+S > 
Alt+Shift+T > 





图 4-17 
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在 弹出 的 “Export” 对 话 框 界面 中 选择 Runnable JAR file， 然 后 点 击 “Next” 按 钮 ， 弹 出 如 图 
4-18 所 示 的 界面 。 


B Runnable JAR File Export 


Runnable JAR File Specification 


Select a 'Java Application! launch configuration to use to create a runnable JAR. 


Launch configuration: 
hdfs test - hadoopapi 


Export destination: 





CAjavaprojectihadoopapi;jar 





Library handling: 

(9) Extract required libraries into generated JAR 

O Package required libraries into generated JAR 

O Copy required libraries into a sub-folder next to the generated JAR 





[l save as ANT script 


Browse. 





< Back. Next > Cancel 
图 4-18 








在 该 界面 中 Launch configuration 用 于 设置 生成 的 JAR 包 被 部 署 启动 时 运行 的 主 类 ， 在 Export 
destination 中 需要 设置 JAR 包 要 输出 保存 到 哪个 目录 ， 点 击 “Finish ”按钮 ， 启 动 打 包 过 程 。 然 后 
将 打包 生成 的 JAR EHHE] Hadoop 大 数据 平台 上 ， 使 用 hadoop jar 命令 运行 测试 结果 如 图 4-19 
所 示 。 





[ hdfsünodeO *]$ hadoop jar /usr/local/hadoopapi. jar 
this file is exist! 


[ hdfsünodeO +-]$ hdfs dfs -rm /doc/test. txt 


18/08/26 22:37:01 INFO fs. TrashPolicyDefault: Moved: ' hdfs: //node0: 8020/doc/test 
,txt” to trash at: hdfs: //nodeo: 8020/user/hdfs/. Trash/Current/doc/test. txt 

[ hdfsünodeO *]$ hadoop jar /usr/local/hadoopapi. jar 

this file is not exist! 

[ hdfsünodeo ~] $ 





图 4-19 


HDFS 分 布 式 文件 系统 很 好 地 解决 了 大 规模 数据 存储 的 需求 ， 除 了 需要 使 用 shell 命令 来 操作 
HDFS 外 ， 使 用 Eclipse 开发 操作 HDFS 的 Java 应 用 程序 也 是 必须 掌握 的 技能 。 


4.6 HDFS 的 参数 配置 和 规划 


CDH 集群 建议 使 用 Web UI 配 置 界面 修改 参数 配置 。 默 认 情 况 下 ，Hadoop 存储 的 副本 数 为 3 
Cdfs.replication) ， 也 就 是 说 副本 数 ( 块 的 备份 数 ) 默认 为 3 份 。 如 果 你 的 集群 只 有 两 个 DataNode， 
就 会 报 副本 备份 不 足 的 错误 ,， 副 本数 调整 如 图 4-20 所 示 。 因 此 对 于 DataNode 节点 ， 系 统 盘 做 Raid 
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1、 数 据 盘 做 Raid 0。 业 务 数据 全 部 存储 在 DataNode 上 ， 所 以 DataNode 的 存储 空间 必须 足够 大 ， 
且 每 个 DataNode 的 存储 空间 要 尽量 保持 一 致 。 

HDFS - Cloudera Manager lèl 
和 [ ë nodeo:7180/cmtiservices/14/configsfilterfreeText-replication- facto 
CloUdera MANAGER Clusters- Hosts- — Diagnostics - Audits — Charts- Administration ~ 
Q HDFS (custeri) | Actions - 


Status Instances Configuration EXE] Commands Chartslibrany Cache Statistics Audits 











NameNode Webul® Quick Links + 


Filters 
replication facto 
v scope 
HDFS (Service-Wide) General Warning(s) NomeNode and SecondaryNameNode have different heapsizes 


Replication Factor HDFS (Service-Wide) 





图 4-20 





比 外 ,NameNode 的 Java 堆栈 大 小 至 少 要 在 1GB 以 上 ,调整 参数 如 图 4-21 所 示 。 如 果 是 128GB 
内 存 的 NameNode 机 器 ， 建 议 把 这 个 值 改 为 16GB 以 上 。 





Cloudera MANAGER Chusters- Hosts- Dlagnoscs- Audis Chans 
Q HDFS (custeri) | Actions- 





Status instances Configuration EE] Commands ChartsLibrary Cache Statistics Audits NameNode WebUle Quick Links = 


Switch to the classic layout 





Filters. 
v SCOPE Showa 
General Warning(s) Namen YNameNode have d 
DataNode Heap Dump Directory DataNode Default Group ..and 7 others 
Ea individual Vales ies 
HtpFS : 
JournalNode 
NFS Gateway Java Heap Size of NameNode 
NameNode in Bytes 
SecondoryNameNode 











Fallover Controller 





图 421 


计算 节点 DataNode 依靠 的 是 数量 优势 ， 除 了 存储 空间 足够 大 之 外 ， 对 机 器 配置 要 求 不 高 。 但 
是 NameNode 要 跟 所 有 的 DataNode 交互 ， 接 收 处 理 各 种 请 求 ， 对 机 器 配置 要 求 较 高 。 按 以 往 项 目 
测试 数据 来 看 ，NameNode 存放 80GB 的 元 数据 时 ，NameNode 机 器 建议 使 用 128GB 内 存 。 
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4.7 使 用 Cloudera Manager 启用 HDFS HA 


4.7.1 HDFS HA 高 可 用 配置 


在 HDFS 集群 中 NameNode 存在 单 点 故障 , 对 于 只 有 一 个 NameNode 的 集群 , 如 果 NameNode 
机 器 出 现 意外 ， 将 导致 整个 集群 无 法 使 用 。 为 了 解决 NameNode 单 点 故障 的 问题 ，Hadoop 给 出 了 
HDFS 的 高 可 用 HA 方案 。HDFS 集群 由 两 个 NameNode 组 成 ， 一 个 处 于 Active 状态 ， 另 一 个 处 于 
Standby 状态 。Active NameNode 可 对 外 提供 服务 ， 而 Standby NameNode 则 不 对 外 提供 服务 ， 仅 同 
步 Active NameNode 的 状态 ， 以 便 在 Active NameNode 失败 时 快速 进行 切换 。 

NameNode 之 间 共 享 数 据 有 NFS 和 JournalNodes 两 种 方案 。CDH 支持 JournalNodes。 两 个 
NameNode 为 了 数据 同步 ， 会 通过 一 组 称 作 JournalNodes 的 独立 进程 相互 通信 。 当 Active 状态 的 
NameNode 的 命名 空间 有 任何 修改 时 , 会 告知 大 部 分 的 JournalNodes 进程 .Standby 状 态 的 NameNode 
有 能 力 读 取 JournalNodes 中 的 变更 信息 ， 并 且 一 直 监 控 EditLog 的 变化 ， 把 变化 应 用 于 自己 的 命名 
空间 。Standby NameNode 可 以 确保 在 集群 出 错时 ， 命 名 空间 状态 已 经 完全 同步 了 。 

下 面 主要 讲述 如 何 使 用 Cloudera Manager 启用 HDFS 的 HA. 

步骤 014 使 用 管理 员 用 户 Admin 登录 Cloudera Manager 的 Web 管理 界面 ,进入 HDFS 服务 ， 
单 击 “Enable High Avaiability”， 如 图 4-22 所 示 。 
































回 HDFs- Cloudera Manager lè] 





和 [ë node0:7180/cmf/services/14/stat 
@ HDFS (Cluster1) | Actions - 





Status instances Config 
Stop 


Restart 
HDFS Summary 


Configured Capacity Add Role Instances 


Rename 
Enter Maintenance Mode 
Health Tests 


Rebalance 





Q Show 5 Good 


^; Show 2 Disabled 
wr n Deploy Client Configuration 


Status Summary 
Download Client Configuration 


Balancer 





Enable High Availability 
DataNode 





图 422 
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#802. 设置 NameService Name, WE 423 所 示 。 





cloudera MANAGER 


Enable High Availability for HDFS 


Getting Started 


This wizard leads you through adding a standby NameNode, restarting this HDFS service and any dependent services, and then 


Nameservice Name nameservice1 


Enabling High Availability creates a new nameservice. Accept the default name nameservice1 





图 4-23 


35803 / 选择 NameNode 主机 及 JournalNode 主机 ， 如 图 4-24 所 示 。 运 行 NameNode 的 服务 
器 应 该 有 相同 的 硬件 配置 。JournalNode 服务 器 上 运行 的 JournalNode 进程 非常 轻 量 ， 可 以 部 署 在 其 
他 的 服务 器 上 ， 但 必须 允许 至 少 3 个 节点 而 且 必须 是 奇数 个 ,如 3、5、7、9 等 。 

















Enable High Availability for HDFS 


Assign Roles 


NameNode Hosts node0 (Current) 


node1 


JournalNode Hosts node[0-2] 


We recommend that JournalNodes be hosted on machines of similar hardware specifications as the NameNodes. The hi 
ResourceManager are generally good options. You must have a minimum of three and an odd number of JournalNodes. 





图 4-24 





3804 / 设置 NameNode 的 数据 目录 和 JournalNode 的 Edits 目录 ( 把 NameNode 上 的 
namespace 元 数据 同步 到 JournalNode 节点 上 ) ， 如 图 4-25 所 示 。 

步骤 054 配置 完毕 ， 启 用 HDFS 的 High Availability， 如 图 4-26 所 示 。 如 果 集 群 已 有 数据 ， 
格式 化 NameNode 会 报错 “Failed to format NameNode”， 这 个 没有 关系 。 

步骤 06 完成 HDFS 的 High Availability ， 如 图 4-27 所 示 。 屏 幕 提 示 进入 Hive 服务 并 停止 
Hive 的 所 有 服务 , 更 新 Hive MetaStore NameNode , 再 启动 Hive 服务 , 完成 HiveMetastore NameNode 
更 新 。 
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Review Changes 


Set the following configuration values for your new role(s). Required values are marked with * 


Parameter Groupg Value 
Service HDFS 
NameNode Data Directories* node /dfs/nn 


dfs.namenode.name.dir 


nodel /dfs/nn 


JournalNode Edits Directory* node0 /dfs/jn 


dfs.journalnode.edits.dir 
Reset to empty default value + 


node dfs/]n 


Reset to empty default value * 


node2 /dfs/jn 
Reset to empty default value * 


图 4-25 


Enable High Availability for HDFS 
“+ Enable High Availability Command 


Status: Running Context: HDFS © Start Time: Aug 27, 11:02:35 PM Abort 


Details Completed 7 of 20 step(s) 


Step Context 


w^ Check that name directories for the new Standby NameNode either do node] d 
not exist or are writable and empty. Can optionally clear directories. 


Process host-validate-writable-empty-dirs (id-128) 
on host node! (id=1) exited with 8 and expected 8 


y w^ Check that edits directories for the nameservice either do not exist or 
are writable and empty. Can optionally clear directories. 
Successfully completed 3 steps. 


y v Stop hdfs and its dependent services g^ Cluster1 g 
All services successfully stopped. 


y w^ Creating roles to enable High Availability. 
Successfully added new JournalNode to HDFS on nodet. 


< Deleting the SecondaryNameNode role. The checkpoint directories of 
the SecondaryNameNode will not be deleted. 











图 426 
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Enable High Availability for HDFS 


Congratulations! 


Successfully enabled High Availability. 


The following manual steps must be performed after completing this wizard: 
° For each of the Hive service(s) Hive, stop the Hive service, back up the Hive Metastore Database| 
NameNodes' then restart the Hive services. 





图 427 


步骤 07 HDFS 的 HA 配置 成 功 后 ， 通 过 实例 列表 ( 见 图 4-28 ) 可 以 看 到 启用 HDFS HA 后 
增加 了 NameNode、Failover Controller 及 JouralNode 服务 ,并 且 服 务 都 正常 启动 ,至 此 已 完成 了 HDFS 
HA 的 启用 。 















































口 Role Type * State Host Commission State Role Group 
O 6 Balancer N/A node0 Commissioned Balancer Default Group 
O @ DataNode Started nodel Commissioned DataNode Default Group 
O @ DataNode Started node2 Commissioned DataNode Group 1 
O Q DataNode Started node0 Commissioned DataNode Default Group 
O Q reitover Controller Started nodel Commissioned Failover Controller Default Group 
O Q raitover Controller Started node0 Commissioned Failover Controller Default Group 
O @ JournalNode Started nodel Commissioned JournalNode Default Group 
O @ JournalNode Started node2 Commissioned JournalNode Default Group 
O 4 JournalNode Started node0 Commissioned JournalNode Default Group 
O € NameNode (Standby) Started nodel Commissioned NameNode Default Group 
O Q NameNode (Active) Started node0 Commissioned NameNode Default Group 
图 4-28 


4.7.2 HDFS HA 高 可 用 功能 测试 


接 下 来 进行 HDFS HA 功能 的 可 用 性 测试 。Cloudera Manager 上 HDFS HA 的 使 用 可 以 通过 如 
图 4-29 所 示 的 界面 手动 切换 。 

"fci; “ Federation and High Availability” 按 钮 , 如 图 4-30 所 示 , 节点 node0 是 Active NameNode， 
节点 nodel 是 Standby NameNode, 单 击 “Actions” 按 钮 , 可 以 进行 手动 故障 转移 (Manual Failover) 。 

如 图 4-31 所 示 ， 激 活 节点 node1， 将 另 一 个 NameNode 转换 为 Standby 模式 。 
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Cloudera MANAGER Clusters- Hosts- Diagnost Audits ^ Charts- Administration + 


o HDFS (custer1 ) | Actions - 





Status Instances Configuration E: Commands Chartslibrary Cache Statistics Audits WebUl * QuickLinks + 

















Filters i 
Y STATUS Actions for Selected ~ | Migrate Roles | Add Role instances | Federation and High Availability 
图 4-29 
NameNode SecondaryNameNode 
NameNode, nodeO (Active) Actions ~ 
NameNode, node1 (Standby) 
Edit 
Disable High Availability 
Manual Fallover 
Initialize High Availability state in ZooKeeper 
Roll Edits 
Delete 
图 4-30 





High Availability Failover 


Which NameNode should be made active? 


j| NameNode (node0) 





NameNode (node1) 


The other NameNode will be transitioned to standby mode. 


口 Force Failover 


For advanced use only: Forcing a failover will first attempt to failover the selected 
NameNode to active mode and the other NameNode to standby mode. It will do so 
even if the selected NameNode is in safe mode. If this fails, perhaps because of 
fencing, it will proceed to transition the selected NameNode to active mode. To avoid 
having two NameNodes be active, use this only if the other NameNode is either 
definitely stopped, or can be transitioned to standby mode by the first failover step. 


Cancel Manual Fail 








图 431 
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单 击 “Manual Failover” 按 钮 ， 开 始 手动 故障 转移 。 如 图 4-32 所 示 ， 故 障 转移 成 功 。 





w Manual Failover Command 


Status: Finished Context: HDFSc* Start Time: Aug 27, 11:35:14 PM Duration: 6.48s 


Successfully failed over manually 


Details Completed 1 of 1 step(s). 


Step Context 


w «^ Manual Failover of Highly Available NameNodes NameNode (node1) 2 


Successfully failed over. 


> «^ Manual NameNode Failover v — NameNode (node1) g 


Successfully failed over. 


$> hdfs/hdfs.sh ["failover","nameservicel", "namenode53", "namenode62" , "false"] stdout stderr 








图 4-32 


此 时 ， 节 点 nodel 已 经 变 为 Active， 节 点 node0 已 经 变 为 Standby， 如 图 4-33 所 示 。 


Federation and High Availability 
Add Nameservice 


Name Highly Available Automatic Failover NameNode 


nameservicel Yes Yes NameNode, node! (Active) 
NameNode, node0 (Standby) 








图 4-33 


另外 , 还 可 以 进一步 进行 测试 。 比 如 使 用 HDFS shell 命令 hdfs dfs -put test.tar.gz /tmp 向 HDFS 
集群 目录 上 传 一 个 文件 ， 上 传 文件 的 同时 将 Active NameNode 服务 停止 ，put 上 传 数据 报错 ， 但 是 
put 上 传 任务 并 没有 终止 。 你 可 以 查看 到 文件 已 成 功 上 传 到 HDFS 的 目录 ， 说 明 在 put 上 传 文件 的 
过 程 中 Active 状态 的 NameNode 停止 后 , 会 自动 将 Standby 状态 的 NameNode 切换 为 Active 状态 ， 
未 造成 HDFS 的 任务 终止 。 
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分 布 式 计 算 框架 MapReduce 


MapReduce 最 早 是 由 谷歌 公司 研究 出 的 一 种 面向 大 规模 数据 处 理 的 并 行 计算 模型 和 方法 。 谷 
歌 公 司 设计 MapReduce 的 初衷 主要 是 为 了 解决 其 搜索 引擎 中 大 规模 网 页 数据 的 并 行 化 处 理 问 题 。 
但 由 于 MapReduce 可 以 普遍 应 用 于 很 多 大 规模 数据 的 计算 问题 ， 因 此 自 MapReduce 推出 以 后 ， 已 
经 事实 上 成 为 大 数据 并 行 处 理 的 行业 标准 。 大 家 普遍 认为 ，MapReduce 是 到 目前 为 止 最 为 成 功 和 
最 广 为 接 受 的 大 数据 并 行 处 理 技术 。 


5.1 MapReduce 概述 


海量 数据 在 单机 上 处 理 时 ， 因 为 硬件 资源 限制 无 法 胜任 ， 而 一 旦 将 单机 版 程序 扩展 到 集群 来 
分 布 式 运 行 ， 将 极 大 地 增加 程序 的 复杂 度 和 开发 难度 。 所 以 分 布 式 并 行 计 算 编程 模型 MapReduce 
应 运 而 生 。 

MapReduce 是 一 个 分 布 式 并 行 计算 的 编程 框架 ， 是 用 户 开发 “基于 Hadoop 的 数据 分 析 应 用 ” 
的 核心 框架 。MapReduce 核心 功能 是 将 用 户 编写 的 业务 逻辑 代码 和 自 带 默认 组 件 整 合成 一 个 完整 
的 分 布 式 运算 程序 ， 并 发 运行 在 一 个 Hadoop 集群 上 。 引 入 MapReduce 框架 后 ,开发 人 员 可 以 将 绝 
大 部 分 工作 集中 在 业务 逻辑 的 开发 上 ， 而 将 分 布 式 计算 中 的 复杂 性 交 由 框架 来 处 理 。 

传统 MPI 实现 的 东西 很 多 ， 风 格 很 自由 ， 编 程 麻烦 ， 需 要 处 理 数 据 切 分 、 数 据 分 发 。 而 
MapReduce 基础 出 发 点 是 很 容易 懂 。MapReduce 由 称 为 Map 和 Reduce 的 两 部 分 用 户 程序 组 成 , 用 
户 只 需要 实现 map0 和 reduce(0) 两 个 函数 ， 即 可 实现 分 布 式 计 算 ， 非 常 简单 。 这 两 个 函数 的 形 参 是 
key. value 对 ， 表 示 函 数 的 输入 信息 。 它 利用 框架 在 计算 机 集群 上 ， 根 据 需求 运行 多 个 程序 实例 来 
处 理 各 个 子 任务 , 然后 再 对 结果 进行 归并 。 所 以 开发 人 员 只 要 关注 如 何 使 用 Map 和 Reduce 两 个 函 
数 编程 实现 基本 的 并 行 计算 任务 ， 而 不 需要 处 理 并 行 编程 中 其 他 复杂 的 问题 。 
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5.2 MapReduce 原理 介绍 


5.2.1 工作 流程 概述 


MapReduce 采用 “分 而 治之 ”的 思想 ， 把 对 大 规模 数据 集 的 操作 ， 分 发 给 一 个 主 节点 管理 下 
的 各 个 分 节点 共同 完成 , 然后 通过 整合 各 个 节点 的 中 间 结 果 , 得 到 最 终结 果 。 简单 地 说 , MapReduce 
就 是 “任务 的 分 解 与 结果 的 汇总 ”。 

如 图 5-1 所 示 ， 在 分 布 式 计算 中 ，MapReduce 框架 负责 处 理 了 并 行 编程 中 分 布 式 存储 、 工 作 
调度 、 负 载 均 衡 、 容 错 处 理 以 及 网 络 通信 等 复杂 问题 ， 把 处 理 过 程 高 度 抽象 为 两 个 函数 : Map 和 
Reduce。MapReduce 采用 “分 而 治之 ”策略 ， 一 个 存储 在 HDFS 分 布 式 文件 系统 中 的 大 规模 数据 
集 ， 会 被 切 分 成 许多 独立 的 Split 分 片 ， 每 一 个 分 片 对 应 一 个 Map 任务 ， 这 些 分 片 可 以 被 多 个 Map 
任务 并 行 处 理 。 当 Map 任务 结束 后 ， 会 生成 以 <key,value> 键 值 对 形式 表示 的 许多 中 间 结 果 。 具 有 
相同 Key 的 <key,value> 会 发 送 到 同一 个 Reduce 任务 那里 ，Reduce 负责 把 中 间 结 果 进 行 汇 总 计算 ， 
并 把 结果 输出 到 HDFS 分 布 式 文件 系统 中 。 

输入 Map 任 务 Reduce 任 务 输出 












































分 片 3 (manO reduce) j——* 输出 2 




















图 5-1 


通俗 地 说 ，MapReduce 的 模式 就 是 将 大 数据 集 分 解 成 百 上 千 的 小 数据 集 ， 每 个 数据 集 分 别 由 
集群 中 的 一 个 节点 进行 处 理 并 生成 中 间 结 果 , 然后 这 些 中 间 结 果 又 由 大 量 的 节点 进行 合并 , 形成 最 

所 有 的 数据 交换 都 是 通过 MapReduce 框架 自身 去 实现 的 ， 在 MapReduce 的 整个 处 理 过 程 
Map 任务 的 输入 文件 ，Reduce 任务 的 处 理 结果 都 是 保存 在 HDFS 分 布 式 文件 系统 中 ， 而 Map 任务 
处 理 得 到 的 中 间 结 果 保 存在 本 地 磁盘 中 。 





5.2.2 MapReduce 框架 的 优势 


MapReduce 的 实现 就 是 编写 MapReduce 过 程 中 的 map 函数 和 reduce 函数 , 这 两 个 函数 由 用 户 
负责 编写 。 一 个 MapReduce 作业 通常 会 把 输入 的 数据 文件 分 割 成 若干 数据 块 ， 交 给 map 任务 并 行 
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处 理 ，MapReduce 框架 自动 对 map 的 输出 进行 排序 、 合 并 后 ， 将 结果 传递 给 reduce 任务 ， 最 终 得 
到 输出 结果 。 一 般 来 说 ， 作 业 的 输入 和 输出 都 存储 在 分 布 式 的 文件 存储 系统 中 , 框架 的 主要 功能 就 
是 负责 资源 管理 和 任务 调度 监控 ， 保 证 作业 正常 稳定 完 月 

MapReduce 作为 分 布 式 计算 框架 ， 有 如 下 优势 : 

o 可 以 处 理 多 种 类 型 的 数据 ， 如 文本 数据 、 传 感 器 数据 、 多 媒体 数据 、 图 像 数 据 等 。 

e 动态 灵活 的 资源 管理 和 调度 ,不 会 出 现 计算 节点 闲置 或 过 载 , 可 调度 任务 到 最 近 的 数据 节点 ， 


兼顾 长 / 短 任务 。 
° ”将 很 多 并 行 编程 的 烦琐 细节 隐藏 起 来 ， 简 化 程序 员 编 程 工作 。 
e 可 扩展 性 非常 好 ， 可 动态 增加 计算 节点 ， 真 正 实现 弹性 计算 。 


5.2.3 MapReduce 执行 过 程 


用 MapReduce 处 理 的 数据 集 (或 任务 ) 必须 具备 这 样 的 特点 : 待 处 理 的 数据 集 可 以 分 解 成 许 
多 小 的 数据 集 ， 而 且 每 一 个 小 数据 集 都 可 以 完全 并 行 地 进行 处 理 。 
MapReduce 执行 过 程 简要 说 明 如 下 : 


(1) 读 取 HDFS 文件 内 容 ， 把 内 容 中 的 每 一 行 解析 成 一 个 个 的 <key，value> 键 值 对 。 

(2) HEX map 函数 ， 编 写 自 己 的 业务 逻辑 ， 对 输入 的 <key，value> 处 理 ， 转 换 成 新 的 <key， 
value> 输 出 作为 中 间 结 果 。 

(3) 为 了 让 reduce 可 以 并 行 处 理 map 的 结果 ， 根 据 业 务 要 求 需要 对 map 的 输出 进行 一 定 的 
分 区 (Partition) 。 对 不 同 分 区 上 的 数据 ， 按 照 key 进行 排序 分 组 ， 相 同 key 的 value 放 到 一 个 集合 
中 ， 把 分 组 后 的 数据 进行 归 约 。 每 个 reduce 会 接收 各 个 map 中 相同 分 区 中 的 数据 ， 对 多 个 map ff 
务 的 输出 , 按照 不 同 的 分 区 通过 网 络 copy 到 不 同 reduce 节点 。 这 个 过 程 称 为 Shuffle 洗 牌 . 即 Shuffle 
就 是 把 我 们 map 中 的 数据 分 发 到 reduce 中 去 的 一 个 过 程 。 

(4) 对 多 个 map 任务 的 输出 进行 合并 、 排 序 、 写 reduce 函数 自己 的 业务 逻辑 ,对 输入 的 
<key,value> 键 值 对 进行 处 理 ， 转 换 成 新 的 <key,value> 输 出 。 

(5) 把 reduce 的 输出 保存 到 新 的 文件 中 。 


5.3 MapReduce 编程 一 一 单词 示例 解析 


WordCount 单词 计数 是 最 简单 也 是 最 能 体现 MapReduce 思想 的 程序 之 一 , 可 以 称 为 MapReduce 
版 “Hello World” , 该 程序 的 完整 代码 可 以 在 Hadoop 安装 包 的 src/examples 目录 下 找到 。 单 词 计 
数 主要 完成 功能 是 : 统计 一 系列 文本 文件 中 每 个 单词 出 现 的 次 数 ， 示 意图 如 图 5-2 Bras. 
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split 1 





helo hadoop | map 
java hadoop 
hello world 





splitn 





hello map | 
java reduce | 
hello world 


处 理 过 程 说 明 如 下 : 


Key-valueList 





hadoop «1.1» 
hello «1.1» 
java 1 
world 1 


HF combine 
































CD 将 文件 拆 分 成 split( 分 片 》， 每 一 个 split 对 应 不 同 机 器 上 的 map 任务 ， 并 行 执行 完成 
从 文件 中 解析 出 所 有 单词 的 任务 ，map 输入 采用 <key, value> 输 入 方式 ， 即 文件 行 号 作为 key, 文件 


的 一 行 作 为 value。 


(2) 将 分 割 好 的 < key,value> 对 交 给 用 户 定义 的 map 方法 进行 处 理 , 生成 新 的 < key,value > 对 。 
得 到 map 方法 输出 的 < key,value> 对 后 , map 会 将 它们 按照 key 值 进行 排序 , 并 执行 Combine 过 程 ， 
将 key 值 相同 的 value 值 累 加 ， 得 到 map 最 终 输 出 结果 。 
(3) reduce 先 对 从 map 接收 的 数据 进行 排序 ， 再 交 由 用 户 自 定义 的 reduce 方法 进行 处 理 , 得 
到 新 的 < key,value> 对 ， 并 作为 WordCount 的 输出 结果 。 


5.4 MapReduce 应 用 开发 


5.4.1 


配置 MapReduce 开发 环境 


启动 Eclipse， 新 建 一 个 Java Project， 在 编写 MapReduce 代码 时 需要 用 到 Hadoop 源 文件 中 的 
部 分 JAR 包 ,就 像 在 编写 纯 Java 代码 时 需要 使 用 Java 自 带 的 依赖 包 一 样 ,这 里 需要 把 相应 的 Hadoop 
编程 API 所 需 JAR 包 导 入 (点 击 “Add External JARs...” 按 钮 导入 ) ， 如 图 5-3 所 示 。 


type fiter text 
Resource 
Builders 
Java Build Path 
Java Code Style 
Java Compiler 
Java Editor 
Javadoc Location 
Project References 
Run/Debug Settings 
Task Repository 
Task Tags 
Validation 


@ Properties for WordCountDemo 


Java Build Path 


(9 Source (Ej Projects BÀ Ubraries 4; 
JARs and class folders on the build path: 





Ë hadcop-common-27.3j; 







|doop-mapreduce-client-jobclient- 








WiiText 


E hadcop-mepreduce-ciient-shuffle-27.3 jar - CN 
Ë hadoop-nfs-27.3jar - C\hadoop-2.7.3\share\h 


ü x 
Order and Export. 
Ahadoop-2.7.3Vsl ^ Add JARs... 
'op-2.7.3 share 
Add Variable... 
Add Ubrary... 
Add Class Folder... 
Add External Class Folder... 
Ede. 











需要 把 下 面 列 上 
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的 目录 下 的 JAR 包 导 入 ， 这 里 我 们 假设 开发 环境 的 操作 系统 是 Windows, 





Hadoop 源 文件 解压 在 CAhadoop-2.7.3 目录 下 : 


C:\hadoop-2.7.3\share\hadoop\common 
C:\hadoop-2.7.3\share\hadoop\common\lib 
C:\hadoop-2.7.3\share\hadoop\mapreduce 
C:\hadoop-2.7.3\share\hadoop\mapreduce\lib 
C:\hadoop-2.7.3\share\hadoop\common\lib 
C:\hadoop-2.7.3\share\hadoop\hdfs 
C:\hadoop-2.7.3\share\hadoop\hdfs\lib 


5.4.2 ”编写 和 运行 MapReduce 程序 


在 Eclipse 的 Package Explorer 中 找到 刚才 创建 好 的 project 名 称 上 右 击 , 在 弹出 的 菜单 中 选择 
New?>Class， 新 建 Java 类 ， 文 件 名 如 WordCountDemo. 
WordCount 单词 计数 主要 完成 的 功能 是 : 统计 一 系列 文本 文件 中 每 个 单词 出 现 的 次 数 ， 可 以 
说 是 MapReduce 编程 开发 中 的 经 典 入 门 例子 了 。 
旺 序 源 代码 如 下 : 





import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 


public 


} 


public static void main(String[] args) throws Exception { 


java.io.IOException; 
java.util.Iterator; 
java.util.StringTokenizer; 


org.apache. 
org.apache. 
org.apache. 
org.apache. 
org.apache. 
org.apache. 
org.apache. 
org.apache. 
org.apache. 
org.apache. 


class WordCountDemo ( 
public WordCountDemo() ( 


hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 
hadoop. 


Configuration conf 
String[] otherArgs 
args)).getRemainingArgs (); 


if(otherArgs.length « 2) ( 
System.err.println("Usage: WordCountDemo «in» [Xin»...] «out»"); 


System.exit(2); 


} 


Job job = Job.getInstance(conf, "word count"); 
job.setJarByClass (WordCountDemo.class); 


conf.Configuration; 

fs.Path; 

io.IntWritable; 

io.Text; 

mapreduce.Job; 

mapreduce.Mapper; 

mapreduce.Reducer; 
mapreduce.lib.input.FileInputFormat; 
mapreduce.lib.output.FileOutputFormat; 
util.GenericOptionsParser; 


- new Configuration(); 
= (new GenericOptionsParser (conf, 
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job.setMapperClass (WordCountDemo.TokenizerMapper.class); 
job.setCombinerClass (WordCountDemo.IntSumReducer.class); 
job.setReducerClass (WordCountDemo.IntSumReducer.class); 
job.setOutputKeyClass (Text.class); 
job.setOutputValueClass (IntWritable.class); 


for(int i = 0; i < otherArgs.length - 1; ++i) ( 
FileInputFormat.addInputPath(job, new Path(otherArgs[i])); 


FileOutputFormat.setOutputPath(job, new 
Path(otherArgs[otherArgs.length - 1])); 
System.exit(job.waitForCompletion(true)?0:1); 
) 


public static class IntSumReducer extends Reducer«Text, IntWritable, 
Text, IntWritable» { 
private IntWritable result - new IntWritable(); 


public IntSumReducer() ( 
} 


public void reduce(Text key, Iterable<IntWritable> values, 
Reducer«Text, IntWritable, Text, IntWritable».Context context) throws 
IOException, InterruptedException ( 
int sum - 0; 


IntWritable val; 
for (Iterator i$ = values.iterator(); i$.hasNext(); sum += 
val.get()) { 
val = (IntWritable)i$.next(); 


this.result.set (sum); 
context.write(key, this.result); 


public static class TokenizerMapper extends Mapper«Object, Text, Text, 
IntWritable» ( 
private static final IntWritable one - new IntWritable(1); 
private Text word - new Text(); 


public TokenizerMapper() ( 
) 


public void map (Object key, Text value, Mapper«Object, Text, Text, 
IntWritable».Context context) throws IOException, InterruptedException ( 
StringTokenizer itr = new StringTokenizer (value.toString()); 


while(itr.hasMoreTokens()) ( 
this.word.set(itr.nextToken()); 
context.write(this.word, one); 
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} 


MapReduce 在 名 称 上 就 表现 出 它 的 核心 原理 ， 它 是 由 两 个 阶段 任务 组 成 ， 一 个 是 Map 任务 ， 
另 一 个 是 Reduce 任务 。 

编写 TokenizerMapper 类 继承 org.apache.hadoop.mareduce 包 中 的 Mapper 类 , 并 重 写 了 map 方 
法 。StringTokenizer 是 一 个 用 来 分 割 String 的 应 用 类 ， 它 会 将 传 入 的 String 字符 串 按 照 分 隔 符 进行 
分 割 ， 默 认 分 隔 符 是 空格 、 制 表 符 、 换 行 符 和 回 车 符 。map 方法 的 输出 得 到 若干 组 键 值 对 ， 提 交 给 
Reduce 任务 处 理 。 

编写 IntSumReducer 类 继承 org.apache.hadoop.mareduce 包 中 的 Reduce 类 , 并重 写 reduce 方 法 ， 
Reduce 任务 处 理 所 有 的 键 值 对 数据 ， 按 键 名 把 对 应 的 值 进行 汇总 ， 也 就 是 将 各 单词 对 应 的 频数 进 
行 累 计 。 这 里 reduce 方法 中 遍历 values 并 求 和 ， 即 可 得 到 某 个 单词 的 总 次 数 。 

为 了 能 让 TokenizerMapper 类 和 IntSumReducer 类 能 够 协同 工作 ， 完 成 最 终 的 词 频 统计 任务 ， 
要 在 主 函 数 Main 中 通过 Job 类 设置 Hadoop 程序 运行 时 的 环境 变量 ， 进 行 MapReduce 程序 的 初始 
化 设置 ， 提 交 任 务 并 等 待 任务 运行 结束 。 

WordCountDemo 代码 完成 后 需要 打包 成 jar 文件 (在 项 目 名 称 上 右 击 ， 选 择 “Export”， 在 弹 
出 对 话 框 中 选择 JAR file) ， 放 到 Hadoop 集群 上 运行 。 这 里 只 需要 把 JAR 包 放 入 到 NameNode 中 ， 
使 用 相应 的 Hadoop 命令 即 可 ，Hadoop 集群 会 自己 把 任务 传送 给 需要 运行 任务 的 节点 。 
首先 ， 准 备 测试 文件 ， 如 图 5-4 所 示 。 

[ hdfsünodeO ~]$ hdfs dfs -mkdir /input 

[ hdfsünodeO ~]$ cat >file1. txt <<EOF 

> hello world our world 

^ hello bigdata real bigdata 

> EOF 
[ hdfsünodeO -1$ cat >file2. txt ««EOF 
> hello hadoop great hadoop 

p hadoop mapreduce 

b EOF 
[ hdfsünodeO ~]$ hdfs dfs -put /var/lib/hadoop-hdfs/filei.txt /input 
[ hdfsünodeO ~]$ hdfs dfs -put /var/lib/hadoop-hdfs/file2. txt /input 
[ hdfsünodeO ^1$ 




















图 54 


把 任务 提交 到 Hadoop 集群 中 执行 ， 在 Hadoop 中 运行 jar 任务 需要 使 用 命令 : hadoop jar [jar 
文件 位 置 ] [jar EX] [HDFS 输入 位 置 ] [HDFS 输出 位 置 ]， 如 图 5-5 所 示 (篇 幅 所 限 ， 只 粘贴 了 一 部 
分 命令 ) . Hadoop 命令 会 启动 一 个 JVM 来 运行 这 个 MapReduce 程序 ， 这 个 job 被 赋予 了 一 个 ID 
^j: job 1535171496909 0001， 而 且 得 知 输 入 文件 有 两 个 (Total input paths to process : 2) ， 同 时 
还 可 以 了 解 map 的 输入 输出 记录 (record 数 及 字 节 数 ) ， 以 及 reduce 输入 输出 记录 。 
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hdfsünodeo -]$ hadoop jar /opt/WordCountDemo. jar /input /output 

[18/08/27 12:42: INFO client. RMProxy: Connecting to ResourceManager at node0/10. 10. 75. 100: 8032 

INFO input.FileInputFormat: Total input paths to process : 2 

INFO mapreduce.JobSubmitter: number of splits:2 

INFO mapreduce.JobSubmitter: Submitting tokens for job: job 1535171496909 0001 

INFO impl.YarnClientImpl: Submitted application application 1535171496909 0001 

INFO mapreduce.Job: The url to track the job: http: //nodeo: 8088/proxy/application 1535171496909 0001/ 
INFO mapreduce.Job: Running job: job 1535171496909 0001 

INFO mapreduce. Job: Job job 1535171496909 0001 running in uber mode : false 

INFO mapreduce. Job: map 0% reduce OX 

INFO mapreduce. Job: map 50% reduce OX 

INFO mapreduce. Job: map 100% reduce 0% 

INFO mapreduce.Job: map 100% reduce 100% 

i INFO mapreduce. Job: Job job 1535171496909 0001 completed successfully 

18/08/27 12:43:50 INFO mapreduce. Job: Counters: 49 








图 5-5 
任务 运行 成 功 ， 查 看 任务 输出 结果 ， 如 图 5-6 所 示 。 


[ hdfs@node0 -1$ hdfs dfs -ls /output 
Found 2 items 
-rw-r--r-- 2 hdfs supergroup 0 2018-08-27 12:43 /output/ SUCCESS 
-rw-r--r-- 2 hdfs supergroup 68 2018-08-27 12:43 /output/part- r-00000 
[ hdfsünodeO -1$ hdfs dfs -text /output/part- r-00000 
bigdata 2 
great 1 
hadoop 3 
hello 3 
imapreduce 1 
our í 
real £ 
world 2 
hdfsünodeo -]$ 








图 5-6 


至 此 ， 一 个 MapReduce 程序 的 开发 过 程 就 结束 了 。 另 外 ，Hadoop jobhistory 记录 下 已 运行 完 
MapReduce 作业 信息 ， 这 样 我 们 就 可 以 在 机 器 的 19888 端口 上 打开 历史 服务 器 的 Web UI 界面 ， 查 
看 已 经 运行 完 的 作业 情况 ， 如 图 5-7 所 示 。 在 Web UI 中 展现 了 每 个 job 使 用 的 Map/Reduce 的 数 
量 、 作 业 提 交 时 间 、 作 业 启 动 时 间 、 作 业 完 成 时 间 、Job ID、 提 交 人 (User) 、 队 列 等 。 














[ T JobHistory 
和 [& rode0:19888/lobhistory ~g) [m^ 
GT [ajaja7a) JobHistory 
~ Application Retired Jobs 
About = 7 7 
Jobs Show 20 -|entries Search: 
a Maps Maps 
R Submit Start Finish 6 s Uer 7 5 Reduc 
Tools Tie ° Tie ° Tiw ~ Job ID £ Naes 2 Queue. ° State $ Totals Compl. eted Total 
08.27 2018.08.27 job 1535171496902 0001 word hdfs root.users.hdfs SUCCEEDED 2 2 1 
5 
T Time T T Redu 
Showing 1 to 1 of 1 entries ir Previou: 








图 5-7 


MapReducel.0 固有 的 缺陷 ， 如 JobTasker 任务 过 重 ， 存 在 单 点 故障 等 问题 ，Hadoop2.0 以 后 的 
版 本 针对 MapReducel.0 进行 体系 架构 重新 设计 ， 这 就 有 了 YARN。 在 Hadoop2.0 版 本 中 ，YARN 
提供 资源 管理 调度 服务 ，MapReduce 不 再 负责 资源 调度 管理 ， 只 是 运行 在 YARN 之 上 的 一 个 纯粹 
的 计算 框架 。 


6.1 YARN 产生 背景 


MapReduce 1.0 架构 的 缺陷 ， 最 严重 的 限制 主要 是 可 伸缩 性 、 资 源 利 用 和 对 与 MapReduce 不 
同 的 工作 负载 的 支持 。 

如 图 6-1 所 示 ， 在 MapReduce1.0 框架 中 ， 有 一 个 称 为 JobTracker 的 主要 进程 ， 它 协调 在 集 
群 上 运行 的 所 有 作业 , 分 配 要 在 TaskTracker 上 运行 的 map 和 reduce 任务 ; 而 称 为 TaskTracker 
的 下 级 进程 ， 它 们 运行 分 配 的 任务 并 定期 向 JobTracker 报告 进度 。JobTracker 既 要 负责 作业 调度 
和 状态 监控 , 又 要 负责 资源 管理 分 配 。JobTracker 需要 巨大 的 内 存 开销 , 当 存 在 非常 多 的 MapReduce 
任务 时 ， 就 会 造成 JobTracker 失败 。 

大 型 的 Hadoop 集群 显现 出 了 由 单个 JobTracker 导致 的 可 扩展 瓶颈 。JobTracker 是 集群 事务 
的 集中 处 理 点 ， 存 在 单 点 故障 。JobTracker 需要 完成 的 任务 太 多 ， 既 要 承载 客户 端 提 交 job 的 分 发 
和 调度 ， 又 要 管理 所 有 job 的 失败 、 重 局， 监视 每 个 DataNode 的 资源 利用 情况 ， 造 成 过 多 的 资源 
消耗 。 在 TaskTracker 端 , 用 map/reduce task 作为 资源 的 表示 过 于 简单 ， 没 有 考虑 到 CPU、 内 存 
等 资源 情况 。 
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图 6-1 


6.2 YARN 框架 介绍 


为 了 解决 可 扩展 性 问题 ， 一 个 绝妙 的 想法 应 运 而 生 ， 这 就 是 责任 解 厢 。 我 们 减少 了 单个 
JobTracker 的 职责 ， 将 部 分 职责 委派 给 TaskTracker， 因 为 集群 中 有 许多 TaskTracker。 在 新 设计 
中 ， 这 个 概念 通过 将 JobTracker 的 双重 职责 集群 资源 管理 和 任务 协调 ) 分 开 。 新 一 代 的 资源 管 
理 调度 框架 YARN 出 现 了 ， 它 是 一 个 通用 资源 管理 系统 ， 可 为 上 层 应 用 提供 统一 的 资源 管理 和 调 
度 。 在 YARN 框架 中 ，ResourceManager 负责 整个 集群 的 资源 管理 和 分 配 ， 而 任务 协调 工作 交 给 
ApplicationMaster， 如 图 6-2 所 示 。 

其 中 要 点 如 下 : 


(1) ResourceManager (简称 RM) ，ResourceManager 是 YARN 的 核心 组 件 ， 它 一 般 分 配 在 
主 节点 上 ， 其 主要 功能 是 负责 系统 资源 的 管理 和 分 配 。 

(2) ApplicationMaster 代替 了 原来 的 JobTracker， 每 当 用 户 提交 了 一 个 应 用 程序 ， 就 会 为 这 
个 应 用 程序 产生 一 个 对 应 的 ApplicationMaster， 并 且 这 个 单独 进程 是 在 其 中 一 个 子 节点 上 运行 的 。 
它 的 主要 功能 : 为 运行 应 用 向 ResourceManager 申请 资源 、 在 job 中 对 Task 实行 调度 、 与 
NodeManager 通信 以 启动 或 者 停止 任务 、 监 控 所 有 任务 的 运行 情况 , 并 且 在 任务 失败 的 情况 下 , E 
新 为 任务 申请 资源 并 且 重 启 任务 。 
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图 6-2 


(3) NodeManager (简称 NM) 代替 原来 的 TaskTracker。NM 是 每 个 子 节点 上 的 资源 和 任务 
管理 器 ， 一 方面 ， 它 会 定向 通过 心跳 信息 向 RM 汇报 本 节点 上 的 资源 使 用 情况 和 各 个 Container 的 
运行 情况 ， 另 一 方面 ， 它 会 接收 并 且 处 理 来 自 AM 的 Container 启动 和 停止 的 各 种 请 求 。 

(4) Container 是 YARN 中 对 系统 资源 的 抽象 ， 同 时 它 也 是 系统 资源 分 配 的 基本 单位 ， 它 封 
装 节点 上 多 维度 资源 ,其 中 包括 CPU`\ 内 存 、 磁 盘 、 网 络 等 .YARN 会 为 每 个 任务 分 配 一 个 Container, 
并 且 该 任务 只 能 够 使 用 该 Container 中 所 描述 的 资源 。 值 得 注意 的 是 , YARN 中 的 Container 是 一 个 
动态 的 资源 划分 单位 , 它 是 根据 实际 提交 的 应 用 程序 所 需求 的 资源 自动 生成 的 , 换 句 话说 ,Container 
里 边 所 描述 的 CPU、 内存 等 资源 是 根据 实际 应 用 程序 需求 而 变化 的 。 

(5) 一 个 分 布 式 应 用 程序 代替 一 个 MapReduce 作业 。 

在 整个 YARN 资源 管理 系统 当中 , ResourceManager 作为 Master ,各 个 节点 的 NodeManager 
作为 Slave. ResorceManager 组 件 和 HDFS 的 名 称 节点 NameNode 部 署 在 一 个 节点 上 ，YARN 的 
ApplicationMaster 以 及 NodeManager 是 和 HDFS 的 数据 节点 DataNode 部 署 在 一 起 的 , YARN 中 
的 Container 容器 (代表 计算 资源 ) 也 是 和 HDFS 的 数据 节点 DataNode 在 一 起 。 各 个 节点 上 
NodeManager 的 资源 由 ResourceManager 统计 进行 管理 和 调度 。 当 应 用 程序 提交 后 ， 会 有 一 个 单 
独 的 Application 来 对 该 应 用 程序 进行 跟踪 和 管理 ， 同 时 该 Application. 还 会 为 该 应 用 程序 向 
Resource 申请 资源 ， 并 要 求 NodeManager 启动 该 应 用 程序 占用 一 定 资源 的 任务 。 


6.3 YARN 工作 原理 


当 用 户 给 YARN 提交 了 一 个 应 用 程序 后 ，YARN 的 主要 工作 流程 如 图 6-3 所 示 (图 中 Yam 
即 YARN) 。 
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YARN 的 主要 工作 流程 说 明 如 下 : 
步骤 014 用 户 编写 客户 端 应 用 程序 ， 向 YARN 中 提交 应 用 程序 ， 其 中 包括 ApplicationMaster 


程序 、 启 动 ApplicationMaster 的 命令 、 用 户 程序 等 。 


#02] ResourceManager 接 到 客户 端 应 用 程序 的 请 求 ， 


会 为 该 应 用 程序 分 配 一 个 Container， 





同时 ResourceManager 的 Application Manager 会 与 该 容器 所 在 的 NodeManager 通信 ， 要 求 它 在 这 个 
Container 中 启动 一 个 ApplicationMastero 
步骤 034 ApplicationMaster 被 创建 后 首先 向 ResourceManager 注册 ， 这 样 用 户 可 以 直接 通过 





ResourceManager 查看 应 


直到 运行 结束 ， 


资源 。 




















即 重复 步骤 4 到 步骤 7。 
步骤 044 ApplicationMaster 采用 轮 询 的 方式 ， 通 过 RPC 协议 向 ResourceManager 申请 和 领取 


程序 的 运行 状态 ， 然 后 它 将 为 各 个 任务 申请 资源 ， 并 监控 它 的 运行 状态 ， 


3:305 / 一 旦 ApplicationMaster 申请 到 资源 后 , 就 会 与 该 容器 所 在 的 NodeManager 通信 ， 要 


求 它 启 动 任务 。 








步 野 064 NodeManager 会 为 任务 设置 好 运行 环 | 
后 ， 将 任务 启动 命令 写 到 一 个 脚本 


步 又 074 


ApplicationMaster 随时 掌握 各 个 任务 的 运行 状态 ， 











BE ( 包括 环境 变量 、 


JAR 包 、 二 进 制程 序 等 ) 








h ， 最 后 通过 在 容器 





各 个 任务 通过 某 个 RPC 协议 向 ApplicationMaster 汇报 














序 运行 过 程 中 ， 
步骤 084 


注销 并 关闭 自己 。 



































失败 ， 然 后 将 其 





若 ApplicationMaster 
重新 启动 ， 直 到 所 有 的 名 











以 便 可 以 在 任务 失败 


运行 该 脚本 来 启动 任务 。 


自己 的 状态 和 进度 ， 从 而 让 





寺 重 新 启动 任务 。 在 应 用 程 


用 户 可 随时 通过 RPC 向 ApplicationMaster 查询 应 用 程序 的 当前 运行 状态 。 

应 用 程序 运行 完成 后 , ApplicationMaster 向 ResourceManager 的 Application Manager 
因 故 失败 , ResourceManager 中 Application Manager 会 监测 到 
E 务 执行 完毕 。 
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6.4 YARN 框架 和 MapReduce1.0 框架 对 比 


两 个 框架 最 大 的 区 别 在 于 原来 MapReduce 框架 中 的 JobTracker 和 TaskTracker 不 见 了 , 取 而 代 
之 的 是 ResourceManager、NodeManager 和 Application Master 这 三 个 组 件 。 

NodeManager 功能 比较 专 一 ， 就 是 负责 Container 状态 的 维护 ， 并 向 ResourceManger 保持 
心跳 。Application Master 负责 一 个 Job 生命 周期 内 的 所 有 工作 ， 类 似 老 的 框架 中 JobTracker。 但 
注意 每 一 个 Job 都 有 一 个 Application Master， 它 可 以 运行 在 ResourceManager 以 外 的 机 器 上 。 

ResourceManager 只 需 负 责 资源 管理 ， 而 任务 调度 和 监控 重启 任务 就 交 给 Application Master 
做 了 。ResourceManager 中 有 一 个 模块 叫 ApplicationsManager， 它 用 于 监测 Application Master 的 运 
行 状况 ， 如 果 出 问题 ， 会 将 其 在 其 他 机 器 上 重启 。 

总 而 言 之 ，YARN 相对 于 MapReduce1.0 有 如 下 优势 : 


(1)ResourceManager tE JobTracker 大 大 减少 了 资源 消耗 , ResourceManager 起 到 了 JobTracker 
的 资源 分 配 的 作用 ， 它 做 的 关于 作业 调度 的 工作 就 只 有 启动 、 监 控 每 个 作业 所 属 的 Application 
Master， 并 重启 故障 的 Application Master。 它 不 再 负责 作业 里 面 的 不 同 任务 的 监控 、 调 度 和 重启 每 
个 Task。 这 样 使 得 单 点 故障 的 影响 变 小 ， 恢 复 更 加 容易 。 

(2) MapReducel.0 既是 计算 框架 又 是 资源 管理 调度 框架 ,但 只 能 支持 MapReduce 编程 模型 。 
而 在 新 框架 中 , Application Master 是 可 变 的 , 可 以 为 不 同 的 计算 框架 编写 自己 的 Application Master; 
使 得 更 多 的 计算 框架 可 以 运行 在 Hadoop 集群 上 。YARN 上 面 可 以 运行 各 种 计算 框架 (包括 
MapReduce、Spark、Storm 等 ) 。 

(3) YARN 的 资源 管理 更 加 高 效 ，YARN 采用 Container 为 单位 进行 资源 管理 。Container 很 
好 地 起 到 了 资源 隔离 的 作用 ， 让 资源 更 好 地 被 利用 起 来 。 








6.5 CDH 集群 的 YARN 参数 调整 


YARN 内 存 分 配 与 管理 优化 ， 主 要 涉及 ResourceManager、ApplicationMaster、NodeManager、 
Container 这 几 个 概念 ，CDH5 版 本 中 ， 同 时 集成 了 MapReduceV1 和 MapReduceV2 (YARN) 两 个 
版 本 ， 如 果 集 群 中 需要 使 用 YARN 做 统一 的 资源 调度 ， 建 议 使 用 YARN。 

根据 CPU 和 内 存 公平 调度 资源 。CDH 动态 资源 池 默 认 采 用 的 DRF ( 即 Dominant Resource 
Fairness) 计划 策略 。 简 单 地 理解 ， 就 是 内 存 不 够 的 时 候 ， 多 余 的 CPU 就 不 会 分 配 任务 了 ， 就 让 它 
空闲 着 ; CPU 不 够 的 时 候 ， 多 出 来 的 内 存 也 不 会 再 启动 任务 了 。 

YARN 启动 任务 时 资源 相关 的 参数 ， 有 如 下 几 个 参数 可 能 会 产生 影响 : 
mapreduce.map.memory.mb，map 任务 内 存 。 
mapreduce.map.cpu.vcores，map 任务 虚拟 CPU 核 数 。 
mapreduce.reduce.memory.mb, reduce 任务 内 存 。 
mapreduce.reduce.cpu.vcores, reduce 任务 虚拟 CPU 核 数 。 


70 | Cloudera Hadoop 大 数据 平台 实战 指南 





yarn.nodemanager.resource.memory-mb， 容 器 内 存 。 
yarn.nodemanager.resource.cpu-vcores, Z Ë 4⁄4 CPU 核 数 。 
yarn.schedulermaximum-allocation-mb,， 分 配给 容器 可 申请 的 最 大 内 存 。 
yarn.schedulermaximum-allocation-vcores， 分 配给 容器 最 大 虚拟 CPU 核 数 。 


比如 将 yarn.nodemanager.resource.memory-mb 配置 成 了 16GB, 甚至 更 大 些 ( 机 器 内 存 128GB), 
如 图 6-4 所 示 。 


icloudera MANAGER > Clustes- Hosts- Diagnostics Audits Chars~ Administration ~ 


IB YARN (MR2 Included)(custer1) Actions- 





Status Instances Configuration Commands Applications Resource Pools ChartsLibrary Audits WebUl ~ QuickLinks ~ 








Filters 
yarn.nodemanager.resource.memory-mb 
v SCOPE 
" Container Memory NodeManager Default Group ...and 1 other C 
yam.nodemanager.resource.m 
16 GiB ` 
emorymb 到 
: Edit Individual Values 
NodeManager 








图 64 








H YARN 后 ， 再 次 启动 MapReduce 任务 ， 测 试 结果 会 发 现 MapReduce 任务 确实 快 了 很 多 。 
Spark 的 on Yarn 模式 ， 其 资源 分 配 是 交 给 YARN 的 ResourceManager 来 进行 管理 的 ， 比 如 ， 

曾经 有 一 个 项 目 ， 启 动 Spark 时 报错 ， 如 图 6-5 所 示 。 

Spark On Yarn 执 行 中 executor 内 存 限制 问题 

15/10/16 16:56:04 INFO RMProxy: Connecting to ResourceManager at interFinance01/10 238.18.80:8032 


15/10/16 16:56:04 INFO Client: Requesting a new application from cluster with 3 NodeManagers 
15/10/16 16:56:04 INFO Client: Verifying our application has not requested more than the maximum memory capability of the cluster (1 
4 MB per container) 
Java lang egalArgumentExcepton: EGG 
at org.apache spark deploy yarn.Client verifyClusterResources(Client scala:191) 
at org.apache.spark deploy yarn.Client submitApplication(Client.scala:102) 
at org.apache.spark scheduler cluster YarnClientSchedulerBackend start(YarnClientSchedulerBackend.scala:58) 
at org.apache.spark.scheduler TaskSchedulerimpl.start(TaskSchedulerimpl.scala:141) 
at org apache spark SparkContext «init» (SparkContext scala:379) 


图 6-5 











解决 方法 如 下 : 

从 图 6-5 中 可 以 看 到 验证 Application 需要 的 内 存 超过 Container 的 最 大 内 存 , 所 以 配置 YARN 
中 的 yarn.scheduler.maximum-allocation-mb 这 个 参数 , 使 得 Container 的 最 大 内 存 达 到 1024+384 MB 
以 上 。 修 改 参数 ， 如 图 6-6 所 示 。 
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Charts ~ Administr 


Cloudera MANAGER Custers- Hosts ~ 
Q YARN (MR2 Included) (custer1) Actions- 





Status Instances Configuration Commands Applications ResourcePools ChartsLibrary Audits WebUl Quick Links ~ 








Filters 
yarn.scheduler.maximum-allocation 
v SCOPE 
Container Memory ResourceManager Default Group + 
Maximum 
6 | MiB y| 1.5GiB 


allocation-mb 











图 6-6 


第 / 章 
数据 仓库 Hive 


Hive 是 基于 Hadoop 的 一 个 数据 仓库 工具 ,可 以 将 类 SQL 语句 转换 为 MapReduce 任务 进行 运 
行 。 其 优点 是 学 习 成 本 低 ， 可 以 通过 类 SQL 语句 快速 实现 简单 的 MapReduce 统计 ， 不 必 开 发 专门 
的 MapReduce 应 用 。 


7.4 Hive 简介 


Hive 有 什么 用 ? 举 个 例子 ， 某 个 公司 内 部 搭建 的 数据 仓库 是 基于 MySQL 的 。 后 来 随 着 数据 
量 的 不 断 增加 , AARRE Hd VETE ASIE Y , 于 是 换 到 了 Hadoop 大 数据 平台 的 数据 体系 , 用 HDFS 
集群 来 存储 海量 数据 。 现 在 问题 来 了 ， 以 前 基于 数据 库 的 数据 仓库 用 SQL 语言 就 能 做 查询 ， 现 在 
换 到 HDFS EMi, 得 跑 MapReduce 任务 去 做 分 析 , 这 样 
以 前 做 分 析 的 人 还 得 学 MapReduce 编程 ! 于 是 就 开发 了 id city name — 
一 套 新 框架 ， 就 是 用 SQL 来 做 HDFS 的 查询 〈 用 户 输 | eeel1 ^ beijing zhangli man 
入 的 是 SQL 语言 , 框架 内 部 把 SQL 转 成 MapReduce 的 0002 guizhou lifang woman 
任务 ， 然 后 再 去 跑 分 析 ) ， 这 样 Hive 就 诞生 了 。 其 实 0003 tianjin wangwei man 
Hive 就 是 一 个 SQL 解析 引擎 , Hive 定 义 了 简单 的 类 SQL — | eee4 chengde wanghe woman 
查询 语言 , 它 允 许 熟 悉 SQL 语言 的 用 户 查 询 数据 , 它 将 |8885 ^ beijing lidong man 
SQL 语句 转译 成 MapReduce 作业 , 然后 在 Hadoop 中 执 eee6 lanzhou wuting woman 











行 ， 来 达到 快速 开发 的 目的 。 0007 beijing guona woman 
举 个 例子 ， 业 务 描述 如 图 7-1 所 示 ， 统 计 业 务 表 “| 09008 — chengde houkuo man 
Customer.txt 中 北京 的 客户 有 多 少 位 ? 如 果 用 所 熟悉 的 图 7-1 


MapReduce 程序 来 实现 这 个 业务 分 析 ， 可 能 需要 90 行 
左右 的 代码 。 
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WRH Hive 来 实现 相同 的 功能 ， 即 统计 业务 表 Customer.txt 天 津 的 客户 有 多 少 位 ? 如 图 7-2 
所 示 ， 只 要 一 条 SQL 语句 。 是 不 是 感觉 Hive 这 个 运行 框架 非常 酷 ? 





hive» select city, count(*) 
> from Customer 
> where city” tianjin 
> group by city; 





图 72 
Hive 的 特点 主要 体现 在 : 


(1)Hive 支持 标准 的 SQL 语法 : Hive 免 去 了 用 户 用 JAVA 语言 编写 MapReduce 程序 的 过 程 ， 
大 大 减少 了 开发 成 本 。 让 那些 精通 SQL 技能 、 但 是 不 熟悉 MapReduce 、Java 编程 能 力 较 弱 的 用 户 
能 够 在 HDFS 集群 上 很 方便 地 利用 SQL 语言 查询 、 汇 总 、 分 析 数 据 。 

(2) Hive 是 为 大 数据 批量 处 理 而 生 的 : Hive 的 出 现 解决 了 传统 的 关系 型 数据 库 (如 MySQL. 
Oracle) 在 大 数据 处 理 上 的 瓶颈 ， 由 于 Hive 是 建立 在 Hadoop 的 分 布 式 文件 系统 HDFS 之 上 的 , 通 
过 MapReduce 计算 框架 来 执行 用 户 提交 的 任务 ， 因 此 可 以 支持 很 大 规模 的 数据 。 此 外 Hive 的 可 扩 
展 性 和 Hadoop 的 可 扩展 性 是 一 致 的 。 

(3) Hive 执行 延迟 高 。 之 前 提 到 ，Hive 在 查询 数据 的 时 候 ， 由 于 没有 索引 ， 需 要 扫描 整个 表 ， 
因此 延迟 较 高 。 另 外 一 个 导致 Hive 执行 延迟 高 的 因素 是 MapReduce 计算 框架 。 由 于 MapReduce 
本 身 具 有 较 高 的 延迟 ， 因 此 在 利用 MapReduce 执行 Hive 查询 时 ， 也 会 有 较 高 的 延迟 。 由 于 数据 的 
访问 延迟 较 高 ， 决 定 了 Hive 不 适合 实时 数据 查询 ，Hive 最 佳 使 用 场景 是 大 数据 集 的 批 处 理 作 业 ， 
比如 网 络 日 志 分 析 。 





7.2 Hive 体系 架构 和 应 用 场景 


7.2.1 Hive 体系 架构 


Hive 体系 架构 由 多 个 组 件 组 成 的 ， 如 图 7-3 所 示 。 
Hive 的 体系 结构 可 以 分 为 以 下 几 个 部 分 。 

COD MPO: CLI MAITO (Command Line Interface) 、JDBC/ODBC、Web 接口 。 其 
中 最 常用 的 是 shell 这 个 客户 端 方式 对 Hive 进行 相应 操作 。 

(2) Driver 驱动 引擎 组 件 (Hive 解析 器 ) : 包括 编译 器 、 优 化 器 、 执 行 器 。 功 能 就 是 根据 用 
户 编写 的 Hive SQL 语句 进行 解析 、 编译 优化 、 生 成 执行 计划 , 然后 调用 底层 MapReduce 计算 框架 ， 
形成 对 应 的 MapReduce Job 进行 执行 。 

(3) Hive 元 数据 (Metastore) : Hive 将 元 数据 信息 存储 在 关系 数据 库 中 , 如 Derby ( 自 带 的 ) ~ 
MySQL( 实 际 工作 中 配置 的 )， 因 为 Derby 不 支持 多 用 户 使 用 Hive 访问 存 储 在 Derby 中 的 Metastore 
数据 ， 所 以 实际 工作 中 ， 通 常 配置 MySQL 来 存储 Metastore 数据 。Hive 中 的 元 数据 信息 包括 表 的 
名 字 、 表 的 列 和 分 区 、 表 的 属性 (是 否 为 外 部 表 等 ) 、 表 的 数据 所 在 的 目录 等 。 
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(4) Hive 这 个 数据 仓库 的 数据 存储 在 HDFS 中 ， 业 务实 际 分 析 计 算是 利用 MapReduce 执行 的 。 


HiVE Client 









接口 


JDBC. ODBC 


( 自 带 的 derby) 
Hive Metastore 








Hadoop 






图 7-3 







从 上 面 的 体系 结构 中 可 以 看 出 ，Hive 其 实 就 是 利用 Hive Driver 将 用 户 的 SQL 语句 解析 成 对 应 
的 MapReduce 程序 而 已 。Hive 本 身 不 存储 数据 ， 而 是 管理 存储 在 HDFS 上 的 数据 。 由 于 Hive 是 


针对 数据 仓库 应 用 设计 的 ， 因 此 Hive 中 不 支持 对 数据 的 改写 和 添加 ， 
候 中 确定 好 的 。 


7.2.2 Hive 应 用 场景 


根据 Hive 的 特点 ， 其 应 用 场景 总 结 如 下 : 


所 有 的 数据 都 是 在 加 载 的 时 


(1) Hive 不 是 一 个 完整 的 数据 库 ， 它 依托 并 受到 HDFS 的 限制 。 其 中 最 大 的 限制 就 是 Hive 


不 支持 记录 级 别 的 更 新 、 插 入 或 者 删除 操作 。 


(2) Hadoop 是 一 个 面向 批 处 理 的 系统 ， 任 务 的 启动 需要 消耗 较 长 的 时 间 ， 所 以 Hive 查询 延 
时 比较 严重 。 传 统 数据 库 秒 级 查询 的 任务 在 Hive 中 也 需要 执行 较 长 的 时 间 。 如 果 是 交互 式 查询 的 





场景 ， 建 议 使 用 Impala。 
(3) Hive 不 支持 事务 。 





综 上 所 述 ，Hive 不 支持 OLTP (On-Line Transaction Processing) ， 而 更 接近 成 为 一 个 OLAP 





COn-Line Analytical Processing) 工具 。 而 且 仅 仅 是 接近 于 OLAP， 因 


为 Hive 的 延 时 性 ， 它 还 没有 


满足 OLAP 中 的 “联机 ”部 分 。 因 此 ，Hive 是 最 适合 数据 仓库 应 用 程序 的 ， 不 需要 快速 响应 给 出 
结果 ， 可 以 对 海量 数据 进行 相关 的 静态 数据 分 析 、 数 据 挖掘 ， 然 后 形成 决策 意见 或 者 报表 等 。 
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那么 ， 如 果 用 户 需要 对 大 规模 数据 使 用 OLTP 功能 又 该 如 何 处 理 呢 ? 此 时 我 们 应 该 选择 一 个 
NoSQL 数据 库 如 HBase， 这 种 数据 库 的 特点 就 是 随机 查询 速度 快 ， 可 以 满足 实时 查询 的 要 求 。 


7.3 Hive 的 数据 模型 


Hive 管理 数据 的 方式 主要 包括 如 下 几 种 : 内 部 表 、 外 部 表 、 分 区 和 Bucket Ñ) 。Hive 的 数 
据 存储 在 Hadoop 分 布 式 文件 系统 中 。Hive 本 身 是 没有 专门 的 数据 存储 格式 ， 也 没有 为 数据 建立 索 
引 ， 只 需要 在 创建 表 的 时 候 告 诉 Hive 数据 中 的 列 分 隔 符 和 行 分 隔 符 ，Hive 就 可 以 解析 数据 。 所 以 
往 Hive 表 里 面 导入 数据 只 是 将 数据 复制 到 Hive 表 所 在 的 HDFS 目录 中 。 


7.3.1 内 部 表 


Hive 的 表 逻 辑 上 由 存储 的 数据 和 描述 表格 中 的 数据 形式 的 相关 元 数据 组 成 。 表 存储 的 数据 存 
放 在 HDFS 分 布 式 文件 系统 里 ， 元 数据 存储 在 关系 数据 库 里 。 当 我 们 创建 一 张 Hive 的 表 ， 还 没有 
为 表 加 载 数据 的 时 候 ， 该 表 在 分 布 式 文件 系统 上 就 是 一 个 文件 目录 。 

内 部 表 的 数据 文件 存储 在 Hive 的 数据 仓库 里 ， 内 部 表 做 删除 表 ， 就 删除 了 目录 及 数据 。 





7.8.2 ”外 部 表 


外 部 表 的 数据 不 是 放 在 自己 表 所 属 的 目录 中 ， 而 是 放 到 别处 ， 比 如 存放 在 Hive 数据 仓库 外 部 
的 分 布 式 文件 系统 上 Hive 的 数据 仓库 也 就 是 HDFS 上 的 一 个 目录 ， 这 个 目录 是 Hive 数据 文件 存 
储 的 默认 路 径 ， 它 可 以 在 Hive 的 配置 文件 里 进行 配置 ， 最 终 也 会 存放 到 元 数据 库 里 ) 。 外 部 表 做 
删除 表 ， 只 是 删除 了 元 数据 的 信息 ， 该 外 部 表 所 指向 的 数据 是 不 会 被 删除 的 。 


7.3.3 分 区 表 


一 个 表 可 以 拥有 一 个 或 者 多 个 分 区 ， 每 个 分 区 以 文件 夹 的 形式 单独 存在 表 文 件 夹 的 目录 下 。 
分 区 避免 Hive Select 查询 中 扫描 整个 表 内 容 ， 防 止 消耗 很 多 时 间 做 没 必要 的 工作 〈 例 如 每 一 天 的 
日 志 存放 在 一 个 分 区 中 ， 这 样 根 据 特 定 的 日 期 查询 ) 。 


7.3.4 桶 


桶 是 更 为 细 粒 度 的 数据 范围 划分 ，Hive 采用 对 指定 列 计算 哈 希 hash， 然 后 除 以 桶 的 个 数 求 余 
的 方式 决定 该 条 记录 存放 在 哪个 桶 当中 。 桶 是 以 文件 的 形式 存放 在 表 的 目录 下 , 每 一 个 桶 对 应 一 个 
文件 。 比 如 将 region X rid 列 分 散 到 16 个 桶 中 ， 首 先 对 rid 列 的 值 计算 hash， 对 应 hash 值 为 0 的 
数据 存储 的 HDFS 目录 如 为 /user/hive/warehouse/region/part-00000， 而 hash 值 为 20 的 数据 存储 的 
HDFS 目录 为 /user/hive/warehouse/region/part-00020。 
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7.4 Hive 实战 操作 


可 以 通过 Cloudera Manager 的 界面 添加 Hive 组 件 , 如 图 7-4 所 示 , 平台 已 经 安装 好 Hive. Hive 
使 用 MySQL 元 数据 库 ， 如 果 安 装 的 时 候 ， 发 现 报错 “unable to find the jdbc database jar on host ” , 
基本 上 是 驱动 JAR 包 位 置 不 对 ， 把 驱动 JAR 包 放 入 /usr/share/java 这 个 目录 ， 并 改名 为 


mysql-connector-java.jar。 








Cloudera MANAGER Clusters- Hosts- Diagnostics ^ Audits Charts Administration + 


@ Hive(custer1) Actions- 





Status Instances Configuration ETE] Commands ChartsLibrary Audits HiveServer2 Web Ul & Quick Links ~ 


Health Tests Create Trigger Charts 


Show 2 Good CPU Cores Used @ 


Status Summary 


Gateway Q3 None Hive Metastore S... 0.0023 «HiveSer.. 0.0028 
Hive Metastore Server @ 1 Good Health Health © 

HiveServer2 @ 1 Good Health 

Hosts @ 1 Good Health 








i n 5 modestia 8. 
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启动 Hive， 如 图 7-5 所 示 。 





[ hdfs@node0 ~]$ hive 


Logging initialized using configuration in jar: file: /opt/cloudera/parcels/CDH-5. 11 
. 2-1. cdh5. 11. 2. p0. 4/jars/hive- common- 1. 1. 0- cdh5. 11. 2. jar! /hive-log4j. properties 
WARNING: Hive CLI is deprecated and migration to Beeline is recommended. 

hive» create database if not exists hivedemo; 

OK 

Time taken: 0.691 seconds 

hive» use hivedemo; 

OK 

Time taken: 0.029 seconds 

hive» 











图 7-5 
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7.4.1 Hive 内 部 表 操 作 


创建 内 部 表 ， 命 令 如 下 。 


use hivedemo; 
create table visiters (last name string,first name string,arrival time 


string, 
Scheduled time string,meeting location string,info comment string) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY 'Nt'; 





创建 表 时 会 在 hivedemo.db 的 目录 下 以 表 名 创建 一 个 文件 夹 ， 如 图 7-6 所 示 。 


[ hdfs@node0 -]$ hdfs dfs -ls /user/hive/warehouse/hivedemo. db 

Found 1 items 

drwxrwxrwt — - hdfs hive 0 2018-09-04 17:54 /user/hive/warehouse/hivedemo 
, db/visiters 










图 7-6 


上 传 文件 到 HDFS 的 目录 中 ，HDFS 的 shell 命令 如 下 : 
hdfs dfs -put /opt/visiters data.txt 
/user/hive/warehouse/hivedemo.db/visiters 
验证 结果 ， 如 图 7-7 所 示 。 


[hdfsünodeO *]$ hdfs dfs -put /opt/visiters_data. txt /user/hive/warehouse/hivedemo, db 
/ visiters 


[hdfsünodeO ~]$ hdfs dfs -ls /user/hive/warehouse/hivedemo. db/visiters 


Found 1 items 

-rw-r--r-- 3 hdfs hive 989239 2018-09-04 21:09 /user/hive/warehouse/hivedemo. db/ vi 
siters/visiters data. txt 

[hdfsünodeo -1$ 





Hive 中 执行 HiveQL 语句 : select * from people visits limit 5, W 7-8 所 示 ， 已 经 可 以 看 到 数 
据 了 。 


hive» select * from visiters limit 5; 

OK 

BUCKLEY SUMMER 10/12/2010 14:48 10/12/2010 14:45 WH 
CLOONEY GEORGE 10/12/2010 14:47 10/12/2010 14:45 WH 
PRENDERGAST JOHN 10/12/2010 14:48 10/12/2010 14:45 


LANIER JAZMIN 10/13/2010 13:00 WH BILL SIGNING/ 
MAYNARD ELIZABETH 10/13/2010 12:34 10/13/2010 13:00 

LL SIGNING/ 

Time taken: 0.754 seconds, Fetched: 5 row(s) 

hive» 





图 7-8 


当 你 在 Hive 执行 drop table visiters 命令 时 ， 再 使 用 HDFS shell 命令 hdfs dfs -ls 
/userhive/warehouse/hivedemo.db/， 你 会 发 现 删除 内 部 表 ，HDFS 上 数据 也 一 起 删除 了 。 


7.4.2 Hive 外 部 表 操 作 


首先 在 HDFS 上 创建 一 个 目录 ， 并 上 传 文件 ， 如 图 7-9 所 示 。 
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[ hdfs@node0 ~]$ hdfs dfs -mkdir /user/hive/warehouse/hivedemo. db/names ext 
[ hdfsünodeO ~]$ hdfs dfs -put /opt/names ext. txt /user/hive/warehouse/hivedemo. db/names . 
ext 

hdfsünodeO -1$ 





图 7-9 


创建 Hive 外 部 表 ， 使 用 关键 字 external， 如 图 7-10 所 示 。Hive 外 部 表 关 联 数据 文件 有 两 种 方 
式 : 一 种 是 把 外 部 表 数 据 位 置 直接 关联 到 数据 文件 所 在 目录 上 ， 这 种 方式 适合 数据 文件 已 经 在 
HDFS 中 存在 ; 另外 一 种 方式 是 创建 表 时 指定 外 部 表 数 据 目 录 ， 随 后 把 数据 加 载 到 该 目录 下 。 
hive> create external table names ext 
( id int, 
name string 


? 
> 
2) 

> row format delimited 
? 

> 





fields terminated by ’\t 
location ' /user/hive/warehouse/hivedemo. db/names ext' 


OK 
ime taken: 0.1 seconds 
hive» select * from names ext; 





OK 
Rich 
1 Barry 
George 
Ulf 
Danielle 
5 Tom 
manish 
Brian 
Mark 
ime taken: 0.092 seconds, Fetched: 9 row(s) 
hive> 
图 7-10 
删除 外 部 表 ，HDFS 中 的 names_ext.txt 文件 并 没有 删除 ， 结 果 如 图 7-11 所 示 。 
ive 
» drop table names ext; 
OK 
Time taken: 0.154 seconds 
hive> exit; 
WARN: The method class org. apache. commons. logging. impl. SLFA4JLogFactory&release() w| 
as invoked. 


WARN: Please see http://www. slf4j. org/codes. htmUtrelease for an explanation. 
hdfsünodeO -]$ 

hdfsünodeo -1$ hdfs dfs -ls /user/hive/warehouse/hivedemo. db/names ext 

Found 1 items 

-rw-r--r-- 8 hdfs hive 78 2018-09-04 22:01 /user/hive/warehouse/hivedemo 
, db/names ext/names ext. txt 

hdfs@node0 -1$ 

















图 7-11 
总 结 一 下 : 


CD 内 部 表 放 在 Hive 数据 库 中 ，drop 表 ， 里 面 的 数据 文件 也 随 之 删除 。 
QD 外 部 表 , 数据 放 在 HDFS 的 文件 中 ，drop 表 ， 仅 删除 Hive 的 元 数据 ，HDFS 的 数据 文件 
还 在 。 
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7.4.8 Hive 分 区 表 操 作 


创建 表 时 可 以 同时 为 表 创建 一 个 或 多 个 分 区 ， 这 样 我 们 在 加 载 数据 时 为 其 指定 具体 的 分 区 ， 
查询 数据 时 可 以 指定 具体 的 分 区 从 而 提高 效率 。 分 区 可 以 理解 为 表 的 一 个 特殊 的 列 。 关 键 字 是 
partitioned, HE 7-12 所 示 。 


hive> use hivedemo; 
OK 
Time taken: 1.742 seconds 
hive» create table invites (id int, name string) partitioned by (ds string) 
» row format delimited 
> FIELDS TERMINATED BY ’ \t” 
> LINES TERMINATED BY ”Am 
> stored as textfile; 
OK 
Time taken: 0.327 seconds 
hive» load data local inpath ’ /opt/datal, txt' overwrite into table invites partiti 
on (ds-' 2013' ); 
Loading data to table hivedemo. invites partition (ds-2013) 
Partition hivedemo. invites(ds-2013) stats: [numFiles-1, numRows-0, totalSize-29, r 
awDataSize-0] 
OK 
Time taken: 1.03 seconds 
hive» load data local inpath '/opt/data2. txt' overwrite into table invites partiti 
on (ds-' 2014' ); 
Loading data to table hivedemo. invites partition (ds-2014) 
Partition hivedemo. invites(ds-2014) stats: [numFiles-1, numRows-0, totalSize-26, r 
awDataSize-0] 
OK 
Time taken: 0.578 seconds 


fg 7-12 
从 一 个 分 区 中 查询 数据 ， 查 看 分 区 表 的 分 区 信息 ， 具 体操 作 如 图 7-13 所 示 。 


hive» select * from invites where ds -'2013'; 
OK 














zhangsan 2013 
lishi 2013 


wangwu 2013 
Time taken: 0.937 seconds, Fetched: 3 row(s) 
hive» select * from invites where ds -'2014'; 


OK 

maliu 2014 

hougi 2014 

zhaoba 2014 
Time taken: 0.15 seconds, Fetched: 3 row(s) 
hive» show partitions invites; 





ds-2014 
Time taken: 0.124 seconds, Fetched: 2 row(s) 





图 7-13 


在 Hadoop 下 分 区 表 是 把 分 区 当成 目录 的 ， 如 图 7-14 所 示 。 分 区 表 实 际 上 是 将 表 文 件 分 成 多 
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个 有 标记 的 小 文件 以 方便 查询 。 


[ hdfs@node0 -1$ hdfs dfs -ls /user/hive/warehouse/hivedemo. db/invites 
Found 2 items 





drwxrwxrwt - hdfs hive 0 2018-09-04 22:21 /user/hive/warehouse/hivedemo. db/in 
vites/ds-2013 
drwxrwxrwt — - hdfs hive 0 2018-09-04 22:21 /user/hive/warehouse/hivedemo. db/in 


vites/ds-2014 
[ hdfsünodeO -]$ 





图 7-14 


744 ÑR 


分 区 表 是 将 大 的 表 文 件 划分 成 多 个 小 文件 以 利于 查询 ， 但 是 如 果 数据 分 布 不 均衡 ， 也 会 影响 
查询 效率 。 桶 表 (bucket table) 可 以 对 数据 进行 哈 希 取 模 ， 目 的 是 让 数据 能 够 均匀 地 分 布 在 表 的 各 
个 数据 文件 中 。 简 而 言 之 ， 桶 表 就 是 在 分 桶 时 ， 对 指定 字段 的 值 进行 hash 运算 得 到 hash 值 ， 并 使 
用 hash 值 除 以 桶 的 个 数 做 取 余 运 算得 到 的 值 进行 分 柯 ， 放 到 不 同文 件 中 存储 。 物 理 上 ， 每 个 桶 
(bucket) WER RIK) 目录 里 的 一 个 文件 ， 一 个 作业 产生 的 桶 输出 文件 ) 和 reduce 任务 个 
数 相同 。 桶 表 专 门 用 于 抽样 查询 ， 不 是 日 常用 来 存储 数据 的 表 ， 在 需要 抽样 查询 时 ， 才 创建 和 使 用 
桶 表 。 

桶 表演 示 操 作 如 下 : 

5801 环境 配置 。 使 Hive 能 够 识别 桶 set hive.enforce.bucketing=trueo 

35:902 / 创建 桶 表 : create table bucket table! (id int) clustered by(id) into 8 buckets。 

创建 只 有 一 个 字段 ( id ) 的 桶 表 ，clustered by 参数 表明 是 以 哪个 字段 分 桶 。 按 照 id 分 桶 ， 分 为 
8 个 bucket, Xj id 进行 哈 希 取 值 ， 放 到 8 个 桶 里 。 

35m03/ 创建 中 间 过 渡 表 bucket table2 并 为 其 加 载 数据 ， 操 作 如 图 7-15 所 示 。 
hive> create table bucket tablel (id int) clustered by(id) into 8 buckets; 
Tine taken: 0.098 seconds 
hive» create table bucket table2(id int); 
Tine taken: 0.101 seconds 
hive» load data local inpath '/opt/testbucketi. txt' into table bucket table2; 
Loading data to table hivedemo. bucket table2 
Table hivedemo. bucket table2 stats: [numFiles-1, totalSize-119] 
OK 


Time taken: 0.855 seconds 
hive» 











图 7-15 


3804 | 桶 表 的 数据 插入 。 使 用 insert into table bucket tablel select * from bucket table2 操作 
命令 ， 如 图 7-16 所 示 。 
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> insert into table bucket tablei select * from bucket table2 

Query ID = hdfs 20180905165151 41aaf2eb-5527-4526-8e01-422f910b360d 
Total jobs = 1 
Launching Job 1 out of 1 
Number of reduce tasks determined at compile time: 8 
In order to change the average load for a reducer (in bytes): 

set hive. exec. reducers. bytes. per. reducer-«number? 
In order to limit the maximum number of reducers: 

set hive. exec. reducers. max=<number> 
In order to set a constant number of reducers: 

set mapreduce. job. reduces=<number> 
Starting Job = job 1536116728391 0001, Tracking URL = http: //node0: 8088/proxy/ap 
plication_1536116728391_0001/ 
Kill Command = /opt/cloudera/parcels/CDH-5. 11. 2-1. cdh5. 11. 2. pO. 4/ Lib/hadoop/bin/ 
hadoop job -kill job 1536116728391 0001 
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 8 


E 7-16 


物理 上 每 个 桶 就 是 目录 里 的 一 个 文件 ,一 个 作业 产生 的 桶 ( 输出 文件 ) 数量 和 reduce 任务 个 数 
相同 ， 通 过 HDFS 的 shell 命令 ， 可 以 看 到 有 8 个 文件 ， 如 图 7-17 所 示 。 

















[ hdfsünodeO ~]$ hdfs dfs -ls /user/hive/warehouse/hivedemo. db/bucket tablei 

Found 8 items 

-rwxrwxrwt 3 hdfs hive 11 2018-09-05 17:18 /user/hive/warehouse/hivedemo 
, db/bucket tablei/000000 0 

-rwxrwxrwt 3 hdfs hive 10 2018-09-05 17:18 /user/hive/warehouse/hivedemo 
. db/bucket table1/000001 0 

-rwxrwxrwt 3 hdfs hive 11 2018-09-05 17:19 /user/hive/warehouse/hivedemo 
, db/bucket table1/000002 0 

-rwxrwxrwt 3 hdfs hive 11 2018-09-05 17:19 /user/hive/warehouse/hivedemo 
. db/bucket tablei1/000003 0 

-rwxrwxrwt 3 hdfs hive 11 2018-09-05 17:19 /user/hive/warehouse/hivedemo 
. db/bucket table1/000004 0 

-rwxrwxrwt 3 hdfs hive 11 2018-09-05 17:19 /user/hive/warehouse/hivedemo 
. db/bucket table1/000005 0 

-rwxrwxrwt 3 hdfs hive 11 2018-09-05 17:19 /user/hive/warehouse/hivedemo 
, db/bucket tablei/000006 0 

-rwxrwxrwt 3 hdfs hive 11 2018-09-05 17:19 /user/hive/warehouse/hivedemo 
. db/bucket table1/000007 0 

[hdfsünodeo -1$ 





图 7-17 


步骤 05 Á Hive 中 的 抽样 查询 select * from bucket tablel tablesample(bucket 3 out of 4 on id); 
看 一 下 语法 : select * from table name tablesample(bucket X out of Y on field); 
X 表示 从 哪个 桶 中 开始 抽取 ，Y 表示 相隔 多 少 个 桶 再 次 抽取 。 
Y 必须 为 分 桶 数量 的 倍数 或 者 因子 ,比如 分 桶 数 为 8, Y 为 8, 则 表示 只 从 桶 中 抽取 1 个 bucket 
的 数据 ; 若 Y 为 4， 则 表示 从 桶 中 抽取 8/4 ( 2 ) 个 bucket 的 数据 。 
上 面 抽样 语句 执行 结果 是 抽取 第 3 个 桶 和 第 7 桶 的 数据 ， 如 图 7-18 所 示 。 
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hive» 

> select * from bucket tablei tablesample(bucket 3 out of 4 on id); 
Query ID = hdfs 20180905172121 65870f7f-2d4c-427f-9f0d-8487f2d48a03 
[Total jobs - 1 
Launching Job 1 out of 1 
Number of reduce tasks is set to O since there's no reduce operator 
Starting Job = job 1536116728391 0004, Tracking URL = http: //nodeo: 8088/ 
Kill Command - foptctautera/parcels/ Cb. 172-1. cdh5 11.2. po 4/ Uib/hadd 
Hadoop job information for Stage-1: number of mappers: 1; number of redu 
[2018-09-05 17:21:43,499 Stage-1 map = OX, reduce = 0% 
[2018-09-05 17:21:54,439 Stage-1 map = 1005, reduce = 0X, Cumulative CPU 
MapReduce Total cumulative CPU time: 2 seconds 530 msec 
Ended Job - job 1536116728391 0004 
MapReduce Jobs Launched 
Stage-Stage-1: Map: 1 Cumulative CPU: 2.53 sec HDFS Read: 4678 HDFS W 
Total MapReduce CPU Time Spent: 2 seconds 530 msec 
OK 


Time taken: 26.246 seconds, Fetched: 8 rows) 
hive 








图 7-18 


通过 HDFS 的 shell 命令 ， 查 看 第 3 个 桶 和 第 7 个 桶 的 数据 ， 如 图 7-19 所 示 。 验 证 结果 相同 。 


hdfsünodeO ~]$ hdfs dfs -cat /user/hive/warehouse/hivedemo. db/bucket_table1/000 
002_0 
10 
26 
18 
hdfsünodeO -]$ hdfs dfs -cat /user/hive/warehouse/hivedemo. db/bucket table1/000 
loo6 0 
22 














图 7-19 


总 而 言 之 ， 对 于 每 一 个 表 Cable) 或 者 分 区 ， Hive 可 以 进一步 组 织 成 柄 ， 桶 是 更 为 细 粒 度 的 


数据 范围 划分 。Hive 是 针对 某 列 进行 分 桶 ， 对 这 列 的 值 进 行 hash， 然 后 除 以 桶 的 个 数 再 决定 把 这 
个 值 放 到 哪个 桶 中 。 


7.4.5 Hive 应 用 实例 WordCount 


Hadoop 经 典 词 频 统 计 WordCount， 首 先 准 备 测试 数据 ， 如 图 7-20 所 示 。 
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hdfsünodeO ~ 
[ hdfsünodeO ~ 


$ hdfs dfs -put /opt/filei. txt /input/ 
$ 
hdfsünodeO ~]$ 
$ 
$ 
t 


hdfs dfs -put /opt/file2, txt /input/ 


H 


hdfsünodeo 
hdfsünodeO ~ 
hadoop is grea 
spark is good 


hdfs dfs -cat /input/filei. txt 


hdfsünodeO ~]$ hdfs dfs -cat /input/file2. txt 
hadoop is good 
spark is great 
hive is good 








hdfsünodeO -1$ 








图 7-20 


用 Hive 编写 HiveQL 语句 实现 WordCount 算法 如 下 所 示 。 


create table docs(line string); 

load data inpath '/input/*.txt' overwrite into table docs; 
create table word count as 

select word, count(1) as count from 

(select explode(split(line,' '))as word from docs) w 


group by word 
order by word; 





hive» create table word count as 
> select word, count(1) as count from 
> (select explode(split(line,' '))as word from docs) w 
» group by word 
> order by word; 
Query ID = hdfs 20180905182020 a9aa75d2-d5c2-4820-8627-a1db317a608 
Total jobs = 2 
Launching Job 1 out of 2 
Number of reduce tasks not specified. Estimated from input data size: 1 
In order to change the average load for a reducer (in bytes): 
set hive. exec. reducers. bytes. per. reducer-«number? 
In order to limit the maximum number of reducers: 
set hive, exec. reducers. max=<number> 
In order to set a constant number of reducers: 
set mapreduce. job. reduces-«number? 
Starting Job = job 1536116728391 0005, Tracking URL = http: //node0: 8088/proxy/applic 
ation 1536116728391 0005/ 
Kill Command = /opt/cloudera/parcels/CDH-5. 11. 2-1. cdh5. 11. 2. p0. 4/ Lib/hadoop/ bin/hado 
op job -kill job 1536116728391 0005 
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1 
018-09-05 18:20:32, 514 Stage-1 map = 0X, reduce = 0$ 
[2018-09-05 18:20:46,678 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 2.47 sec 
018-09-05 18:20:58,351 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 4.27 sec 
MapReduce Total cumulative CPU time: 4 seconds 270 msec 








图 721 


HT select * from word_count， 单 词 统计 结果 如 图 7-22 所 示 。 
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hive» select * from word count; 








OK 
good 3 
great 2 
hadoop 2 
hive 1 
is 5 
spark 2 
[ime taken: 0.156 seconds, Fetched: 6 row(s) 
hive» 
图 722 


WordCount 单词 统计 算法 在 MapReduce 中 的 编程 实现 和 Hive 中 编程 实现 的 主要 不 同 点 如 下 : 


(1) 采用 Hive 实现 WordCount 算法 只 需要 编写 较 少 的 代码 量 , 在 MapReduce 中 , WordCount 
类 由 63 fT Java 代码 编写 而 成 ， 在 Hive 中 只 需要 编写 7 行 代码 。 

(2) 在 MapReduce 的 实现 中 , 需要 进行 编译 生成 JAR 文件 来 执行 算法 , 而 在 Hive 中 不 需要 ， 
HiveQL 语句 的 最 终 实 现 需要 转换 为 MapReduce 任务 来 执行 ， 这 都 是 由 Hive 框架 自动 完成 的 ， 用 
户 不 需要 了 解 具体 实现 细节 。 


7.4.6 UDF 


， 用 户 自 定义 函数 UDF (User-Defined-Function) 可 以 用 来 对 数据 进行 处 理 。Hive 自身 查询 语 
言 HiveQL 能 完成 大 部 分 的 工作 ， 但 遇 到 特殊 需求 时 ， 需 要 自己 写 UDF 实现 。UDF 函数 可 以 直接 
应 用 于 select 语句 ， 对 查询 结构 做 格式 化 处 理 后 ， 再 输出 内 容 。 
在 开发 工具 Eclipse 中 编写 UDF, 项 目 中 增加 Hive 的 目录 lib 下 的 JAR 包 和 Hadoop 中 的 相应 
JAR 包 。UDF 类 要 继承 org.apache.hadoop.hive.ql.exec.UDF 类 ， 类 中 要 实现 evaluate 函数 ，evaluate 
函数 支持 重 载 。 当 我 们 在 Hive 中 使 用 自己 定义 的 UDF 的 时 候 ，Hive 会 调用 类 中 的 evaluate 方法 来 
实现 特定 的 功能 。 
例子 代码 如 下 : 
Package hiveUDFdemo; 
import org.apache.hadoop.hive.ql.exec.UDF; 
public class udftestlength extends UDF( 


public Integer evaluate(String s) 
{ 








if(s==null) 
{ 

return null; 
Jelse( 

return s.length(); 
) 





) 





将 上 面 的 类 打 成 JAR 包 的 形式 ， 再 使 用 Eclipse 直接 导出 为 hiveUDFdemo.jar 包 。 然 后 上 传 到 
Hadoop 集群 Hive 节点 机 器 上 ， 放 在 /opt 文件 夹 中 。 
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创建 测试 表 student 并 加 载 数 据 ，SQL 命令 如 下 : 


create table student( 

id int, name String 

) 

Row format delimited 

Fields terminated by '\t' 

Lines terminated by '\n'; 

load data local inpath '/opt/student.txt' into table student; 








UDF 自 定义 函数 调用 过 程 必须 先 加 入 JAR 包 (在 Hive 命令 行 里 面 运行 ) : 
hive> add jar /opt/hiveUDFdemo.jar; 

创建 临时 函数 Hive 命令 行 关闭 后 ， 即 失效 ) 。 
hive» create temporary function testlength as 'hiveUDFdemo.udftestlength'; 


加 入 JAR 包 和 创建 临时 函数 的 操作 结果 如 图 7-23 所 示 。 











hive» 

> add jar /opt/hiveUDFdemo. jar; 
Added [/opt/hiveUDFdemo. jar] to class path 
Added resources: [/opt/hiveUDFdemo. jar] 


hive» create temporary function testlength as ' hiveUDFdemo. udftestlength' 





图 7-23 


调用 UDF， 执 行 SQL 命令 select id, name, testlength(name) from student， 执 行 结果 如 图 7-24 
所 示 。 





hive> select id, name, testlength(name) from student: 
Query ID = hdfs_20180905221818_e2dc8c2c-1f38-479e-b342-0dbb4e93929d 


Launching Job 1 out of 1 

Number of reduce tasks is set to 0 since there's no reduce operator 
Starting Job = job 1536116728391 0009, Tracking URL = http: //nodeo: 80! 
Kill Command = /opt/cloudera/parcels/CDH-5. 11. 2-1. cdh5. 11. 2. p0. 4/lib/ 
Hadoop job information for Stage-1: number of mappers: 1; number of r| 
2018-09-05 22:19:13,313 Stage-1 map = 0X, reduce = 0% 

2018-09-05 22:19:24,136 Stage-1 map = 100%, reduce = 0X, Cumulative 
MapReduce Total cumulative CPU time: 2 seconds 660 msec 

Ended Job - job 1536116728391 0009 

MapReduce Jobs Launched 

Stage-Stage-1: Map: 1 Cumulative CPU: 2.66 sec HDFS Read: 3680 HD 
ITotal MapReduce CPU Time Spent: 2 seconds 660 msec 


OK 

101 zhangsan 8 
102 lishi 5 

103 wangwu 6 

104 maliu 5 


105 houdi 5 
106 zhaoba 6 
[Time taken: 27.249 seconds, Fetched: 6 row(s) 


图 724 
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将 分 析 得 到 查询 结果 保存 到 HDFS 中 ， 结 果 如 图 7-25 所 示 。 


hive> create table result row format delimited fields terminated by '\t' 
as select id,name,testlength (name) from student; 














Ie create table result row format delimited fields terminated by 'At' as select id, name, testlength(name) from student; 
uery ID = hdfs 20180905222020 "7c3dbe56-74dc-407a-b7b5-69a47486de9a 

[Total jobs = 3 

launching Job 1 out of 3 

lumber of reduce tasks is set to 0 since there's no reduce operator 

Istarting Job = job 1536116728391 0010, Tracking URL = http: //node0: 8088/proxy/application 1536116728391 0010/ 

ill Command = /opt/cloudera/parcels/CDH-5. 11. 2-1. cdh5. 11. 2. p0. 4/lib/hadoop/bin/hadoop job -kill job 1536116728391 0010 
ladoop job information for Stage-1: number of mappers: 1; number of reducers: 0 

018-09-05 22:20:44,366 Stage-1 map = 0X, reduce = 0% 

018-09-05 22:20:56,088 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 2.1 sec 

lapReduce Total cumulative CPU time: 2 seconds 100 msec 

lEnded Job = job 1536116728391 0010 

Istage-4 is selected by condition resolver. 

Istage-3 is filtered out by condition resolver. 

jstage-5 is filtered out by condition resolver. 

poring data to: hdfs://node0: 8020/user/hive/warehouse/hivedemo. db/. hive- staging hive 2018-09-05 22-20-31 135 674111984877: 
loving data to: hdfs: //nodeo: 8020/user/hive/warehouse/hivedemo. db/ result 

[Table hivedemo. result stats: [numFiles-1, numRows-6, totalSize-77, rawDataSize-71] 

MapReduce Jobs Launched: 

Itage-Stage-1: Map: 1 Cumulative CPU: 2.1 sec HDFS Read: 3459 HDFS Write: 148 SUCCESS 

[Total MapReduce CPU Time Spent: 2 seconds 100 msec 

pK 

[Time taken: 27.516 seconds 

hive) 








图 725 


通过 HDFS 的 shell 命令 验证 ， 结 果 如 图 7-26 所 示 。 


[hdfsünodeo ~]$ hdfs dfs -ls /user/hive/warehouse/hivedemo. db/ result 
Found 1 items 








-rwxrwxrwt 3 hdfs hive 77 2018-09-05 22:20 /user/hive/warehouse/hivedemo. db/ result/ 
000000 0 
[hdfsünodeO ~]$ hdfs dfs -cat /user/hive/warehouse/hivedemo. db/result/000000 0 
101 zhangsan 8 
102 lishi 5 
108 wangwu 6 
104 maliu 5 
105 houqi 5 
106 zhaoba 6 
图 726 


7.5 基于 Hive 的 应 用 案例 


应 用 场景 是 对 搜索 日 志 数 据 进行 统计 分 析 高 线 非 实时 应 用 ) 。 某 公司 搜索 平台 刚 上 线 不 久 ， 
访问 日 志 量 并 不 大 。 这些 访问 日 志 分 布 在 8 台 前 端 机 上 , 日 志 按 小 时 保存 ,并 以 小 时 为 周期 定时 将 
上 一 小 时 产生 的 数据 同步 到 日 志 分 析 机 器 上 , 统计 数据 要 求 按 小 时 更 新 。 这 些 统计 项 包括 关键 词 搜 
索 量 、 类 别 访问 量 、 每 秒 访问 量 等 。 

构建 基于 Hive 的 应 用 ， 我 们 将 这 些 数据 按 天 为 单位 建 表 ， 每 天 一 个 表 ， 后 台 脚 本 根据 时 间 戳 
将 每 小 时 同步 过 来 的 8 台 前 端 机 的 日 志 数 据 合并 成 一 个 日 志文 件 ， 导 入 HDFS 文件 系统 ， 每 小 时 
同步 的 日 志 数据 被 追加 到 当天 数据 表 中 ,导入 完成 后 ,当天 各 项 统计 项 将 被 重新 计算 并 输出 统计 结 
果 。 
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以 上 需求 车 直接 基于 Hadoop 的 MapReduce 开发 ， 需 要 自行 管理 数据 ， 针 对 多 个 统计 需求 开 
发 不 同 的 MapReduce 运算 任务 ， 对 合并 、 排 序 等 多 项 操作 进行 定制 ， 并 检测 任务 运行 状态 ， 工 作 
量 非常 大 。 但 是 使 用 Hive, 从 导入 到 分 析 、 排序、 去 重 、 结 果 输 出 等 这 些 操 作 都 可 以 运用 HiveQL 
这 种 类 SQL 语句 来 解决 ， 一 条 语句 经 过 处 理 被 解析 成 儿 个 任务 来 运行 ， 即 使 是 关键 词 访问 量 增 量 
这 种 需要 同时 访问 多 天 数据 的 较为 复杂 的 需求 , 也 能 通过 表 关联 这 样 的 语句 自动 完成 , 节省 了 大 量 
IFE. 

项 目 中 关于 Hive 性 能 优化 的 考虑 , 由 于 Hive 并 不 像 事务 型 关系 数据 库 那 样 针对 个 别 的 行 来 执 
行 查询 、 更 新 、 删 除 等 操作 ， 这 些 操作 依赖 高 效 的 索引 来 实现 高 性 能 。Hive 通常 用 在 多 任务 节点 
的 场景 下 ， 快 速 地 扫描 数据 ， 所 以 Hive 是 通过 并 行 化 来 实现 性 能 。Hive 性 能 优化 时 ， 把 HiveQL 
当 作 MapReduce 程序 来 读 , BIM MapReduce 的 运行 角度 来 考虑 优化 性 能 ， 从 更 底层 思考 如 何 优化 
运算 性 能 ， 而 不 是 只 局 限于 逻辑 代码 的 替换 层面 。 

总 结 一 下 ，Hive 是 基于 Hadoop 的 一 个 数据 仓库 工具 ， 并 提 类 SQL 查询 功能 ， 可 以 将 类 SQL 
语句 转换 为 MapReduce 任务 进行 运行 。 这 也 就 决定 Hive 非常 适合 离线 统计 分 析 、 批 处 理 的 应 用 场 
景 。 





= 8 = 
数据 迁移 工具 Sqoop 


Sqoop 是 一 个 用 来 将 Hadoop 和 关系 型 数据 库 中 的 数据 相互 转移 的 工具 ， 可 以 将 一 个 关系 型 数 
HE CPW: MySQL. Oracle. PostgreSQL 等 ) 中 的 数据 导入 到 Hadoop 的 HDFS 中 ， 也 可 以 将 
HDFS 的 数据 导入 到 关系 型 数据 库 中 。 


8.4 Sqoop 概述 


Sqoop 项 目 开 始 于 2009 年 ， 最 早 是 作为 Hadoop 的 一 个 第 三 方 模块 存在 ， 现 在 已 经 独立 成 为 

-个 Apache 项 目 。 Sqoop 是 一 款 开 源 工具 ， 主 要 用 于 传统 关系 数据 库 与 Hadoop 之 间 的 数据 导入 

导出 。 它 是 Hadoop 环境 下 连接 关系 数据 库 与 Hadoop 存储 系统 的 桥梁 ,支持 多 种 关系 数据 源 和 Hives 

HDFS、HBase 的 相互 导入 。 对 于 每 天 的 数据 量 而 言 , 如 果 每 天 产生 的 数据 量 不 是 很 大 的 情形 , Sqoop 

可 以 全 表 导 入 ， 但 是 Sqoop 也 提供 了 增 量 数据 导入 的 机 制 。Sqoop 工作 机 制 利用 MapReduce 分 布 
式 批 处 理 ， 加 快 了 数据 传输 速度 ， 保 证 了 容错 性 。 

Sqoop 在 业务 当中 的 角色 地 位 如 图 8-1 所 示 。 在 实际 的 业务 当中 ， 我 们 首先 对 原始 数据 集 通过 
MapReduce 作业 进行 数据 清洗 ， 然 后 将 清洗 后 的 数据 存 入 到 HBase 数据 库 中 ， 而 后 通过 数据 仓库 
Hive 对 HBase 中 的 数据 进行 统计 与 分 析 ， 分 析 之 后 将 分 析 结 果 存 入 到 Hive 表 中 ， 然 后 通过 Sqoop 
这 个 工具 将 我 们 的 数据 挖掘 结果 导入 到 关系 数据 库 (如 MySQL) 中 ,最 后 通过 Web 网 页 图 表 将 结 
果 可 视 化 展示 出 来 。 
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概括 起 来 说 ，Sqoop 是 一 个 用 来 将 关系 型 数据 库 和 Hadoop 中 的 数据 进行 相互 转移 的 工具 ， 如 
图 8-2 所 示 。 它 既 可 以 将 一 个 关系 型 数据 库 〈 例 如 MySQL. Oracle) 中 的 数据 导入 到 Hadoop (fl 
如 HDFS、Hive、HBase) 中 ， 也 可 以 将 Hadoop (例如 HDFS、Hive、HBase) 中 的 数据 导入 到 关 
系 型 数据 库 〈 例 如 MySQL. Oracle) 中 。 


Saoop 


Hadoop 


关系 型 数据 库 (HDFS. Hive 


(MySql, Oracle) Hbase) 





图 82 
选择 Sqoop 的 理由 通常 基于 三 个 方面 的 考虑 : 


(1) 它 可 以 高 效 地 利用 资源 ， 可 以 通过 调整 任务 数 来 控制 任务 的 并 发 度 ; 

(2) 它 可 以 自动 地 完成 数据 类 型 映射 与 转换 。 往 往 我 们 导入 的 数据 是 有 类 型 的 ， 它 可 以 自动 
根据 数据 库 中 的 类 型 转换 到 Hadoop 中 ， 当 然 用 户 也 可 以 自 定义 它们 之 间 的 映射 关系 ; 

(3) 它 支 持 多 种 数据 库 ， 比 如 MySQL. Oracle 和 PostgreSQL 等 数据 库 。 


8.2 Sqoop 工作 原理 


Sqoop 即 SQL to Hadoop ， 充 分 利用 MapReduce 并 行 特点 以 批 处 理 的 方式 加 快 数据 传输 ， 通 
过 map-reduce 任务 来 传输 数据 ， 从 而 提供 并 发 特性 和 容错 。 Sqoop 主要 通过 JDBC 和 关系 数据 
库 进行 交互 。 理 论 上 支持 JDBC 的 Database 都 可 以 使 用 Sqoop 和 HDFS 进行 数据 交互 。 

Sqoop 从 关系 数据 库 中 导入 数据 到 HDFS 的 原理 ， 如 图 8-3 所 示 。 首 先 用 户 输入 一 个 Sqoop 
import 命令 ,Sqoop 会 从 关系 型 数据 库 中 获取 元 数据 信息 ,如 schema, table 表 有 哪些 字段 field type 
字段 数据 类 型 等 ， 它 获取 这 些 信 息 之 后 ， 会 将 导入 命令 转化 为 基于 Map 的 MapReduce 作业 。 这 
样 MapReduce 作业 中 有 很 多 Map 任务 ,每 个 Map 任务 从 数据 库 中 读 取 一 片 数据 , 这 样 多 个 Map 
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任务 并 行 地 完成 数据 复制 ， 把 整个 数据 快速 地 复制 到 HDFS 分 布 式 文件 系统 上 。 









Metadata 
(column names, types, etc.) 


Database 
table 
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' Generated record 
š container class 
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图 8-3 


Sqoop 导出 功能 的 原理 与 其 导入 功能 非常 相似 ,如 图 8-4 所 示 。 首 先 用 户 输入 一 个 Sqoop export 
命令 ， 它 会 获取 关系 型 数据 库 的 schema， 建 立 Hadoop 字段 与 数据 库 表 字段 的 映射 关系 。 然后 
会 将 输入 命令 转化 为 基于 Map 的 MapReduce 作业 ， 这 样 MapReduce 作业 中 有 很 多 Map 任务 ， 
它们 并 行 地 从 HDFS 中 读 取 源 数据 文件 ， 并 将 整个 数据 复制 到 数据 库 中 。HDFS 读 取 数 据 的 
MapReduce 作业 会 根据 所 处 理 文件 的 数量 和 大 小 来 选择 并 行 度 Cmap 任务 的 数量 ) 


一 


Generated record 
container class 


(1)Metadata 
(column names, types, etc.) 


图 84 
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8.3 Sqoop 版 本 和 架构 


Sqoop 发 展 至 今 主 要 演化 了 两 大 版 本 ，Sqoopl 和 Sqoop2。 我 们 可 以 在 其 官网 
http://Sqoop.apache.org/ 上 看 到 所 有 的 版 本 ，Sqoopl 的 最 高 版 本 为 1.4.7， 如 图 8-5 所 示 。 而 
Sqoop1.99.7 属于 Sqoop2， 如 图 8-6 所 示 。Sqoopl 和 Sqoop2 是 两 个 完全 不 兼容 的 版 本 。 














Sqoop ~ Project Information ~ Releases ~ Documentation ~ ASF ~ 


OC OO Sqoop 2 | 146 | 
V T 145 

144 

143 


142 
1.4.1-incubating 


Apache ®© ` Sqoop 


Apache Sqoop 





1.4.0-incubating 





图 8-5 


Sqoop ~ Project Information > Releases ~ Documentation ~ ASF ~ 


Sqoop 1 
OQOOp | 


TI 1.996 
1.99.5 
1.99.4 
1.99.3 
1.99.2 
1.99.1 


Apache Q ` Sqoop 


Apache Sqoop 








图 8-6 


Sqoopl 的 架构 如 图 8-7 所 示 。Sqoop1 的 架构 使 用 Sqoop 客户 端 直接 提交 的 方式 ， 访 问 方式 是 
CLI 控制 台 方式 进行 访问 ， 在 命令 或 脚本 中 指定 数据 库 名 及 密码 。Sqoop2 的 架构 如 图 8-8 所 示 。 
Sqoop2 在 架构 上 引入 了 Sqoop Server, 集中 化 管理 Connector, 提供 多 种 访问 方式 如 CLI Web UI. 
REST API. 在 Sqoopl 中 我 们 经 常用 脚本 的 方式 将 HDFS 中 的 数据 导入 到 MySQL 中 , 或 者 反 过 来 
将 MySQL 数据 导入 到 HDFS 中 , 其 中 在 脚本 里 边 都 要 显示 指定 MySQL 数据 库 的 用 户 名 和 密码 的 ， 
安全 性 做 得 不 是 太 完善 。 在 Sqoop2 中 ， 如 果 是 通过 CLI 方 式 访问 的 话 ， 会 有 一 个 交互 过 程 界面 ， 
你 输入 的 密码 信息 不 被 看 到 。 同 时 Sqoop2 引入 基于 角色 的 安全 机 制 。 
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HDFS/HBase/ 


Hive 





Sqoop! 5 Sqoop? 的 优 缺点 如 表 8-1 所 示 。 


第 8 章 数据 迁移 工具 Sqoop | 93 


表 8-1 Sqoop1 与 Sqoop2 的 优 缺 点 





Sqoop1 


Sqoop2 





架构 仅仅 使 用 一 个 Sqoop 客户 端 


引入 了 Sqoop Server 集中 化 管理 Connector， 以 及 
RESTAPI、Web UI， 并 引入 基于 角色 安全 机 制 











部 署 部 署 简单 ， 安 装 需要 root BUR. | 架构 复杂 ， 配 置 部 署 更 烦琐 
Connector 必须 符合 JDBC 模型 
使 用 命令 行 方式 容易 出 错 ， 格 式 紧 耦 合 , 无 | 多 种 交互 方式 ， 命 令 行 ，Web Ul, REST API, 





法 支持 所 有 数据 类 型 , 安全 机 制 不 够 完 
善 ， 例 如 密码 容易 暴露 


Conncetor 集中 化 管理 ， 所 有 的 链接 安装 在 Sqoop 
Server 上 ， 完 善 权限 管理 机 制 。Connector 规范 化 ， 
仅仅 负责 数据 的 读 写 











Sqoop 不 仅 可 以 用 于 


F 在 关系 型 数据 库 与 HDFS 文件 系统 之 间 进 行 数据 转换 , 而 且 也 可 以 将 数据 
从 关系 数据 库 传输 至 Hive 或 HBase。 而 对 于 数据 从 Hive 或 HBase 传输 至 关系 数据 库 来 说 ， 则 
可 以 从 Hive 或 HBase 将 数据 提取 至 HDFS, 然后 使 用 Sqoop 将 上 一 步 的 输出 导出 至 RDBMS. 


8.4 Sqoop 实战 操作 


首先 通过 Cloudera Manager 的 管理 界面 添加 Sqoopl client 服务 ， 如 图 8-9 所 示 。 


cloudera MANAGER 


Home 


Clusters ~ 


Status All Health Issues Configuration EE] ~ All Recent q 


Cluster 1 


18 Hosts 

Q Fiume 

H HBase 

8 HpFs 

€ Hive 

* Sqoop 1 C 
H! YARN (MR. 


Å ZooKeeper 
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然后 要 将 关系 数据 库 的 JDBC 驱动 复制 到 Sqoop 的 lib 文件 夹 下 ， 这 里 以 MySQL 关系 数据 库 
为 例 ， 复 制 MySQL 的 JDBC 驱动 包 ， 如 图 8-10 所 示 。 


[ rootünodeO sqoop]# pwd 

/ opt/ cLoudera/parcels/CDH-5. 11. 2-1. cdh5. 11. 2. p0. 4/lib/sqoop 

[ rootünodeO sqoop]# 

[ rootünodeO sqoopl& cp /opt/mysql-connector- java-5. 1. 42- bin. jar /opt/cloudera/pa 
rcels/CDH-5. 11. 2-1. cdh5, 11. 2, p0, 4/lib/sqoop 

[ rootünodeO sqoop]# 








图 8-10 


列 出 MySQL 所 有 的 数据 库 的 命令 : 


Sqoop list-databases --connect jdbc:mysql://10.10.75.100:3306 --username 





root --password root123 


注意 以 上 命令 要 在 同一 行 写 完 ， 操 作 如 图 8-11 所 示 。 而 且 在 你 的 数据 库 连 接 密码 中 如 果 包 含 
一 个 特殊 符号 如 '$'， 就 需要 更 改 一 下 密码 ， 再 用 Sqoop 连接 。 因 为 Sqoop1 的 命令 行 参数 应 该 是 对 
特殊 符号 做 了 处 理 ， 通 过 Sqoop 操作 数据 库 时 尽量 不 要 包括 特殊 符号 。 


[ rootünodeO sqoop]# sqoop list-databases --connect jdbc: mysql: //10. 10. 75. 100: 330 
6 --username root --password rooti23 

Warning: /opt/cloudera/parcels/CDH-5. 11. 2-1. cdh5. 11. 2. p0. 4/bin/. . /lib/sqoop/../a 
ccumulo does not exist! Accumulo imports will fail 

Please set $ACCUMULO HOME to the root of your Accumulo installation 

18/05/10 11:48:50 INFO sqoop. Sqoop: Running Sqoop version: 1.4.6-cdh5.11.2 
18/05/10 11:48:50 WARN tool.BaseSqoopTool: Setting your password on the command- 
line is insecure. Consider using -P instead 

18/05/10 11:48:50 INFO manager. MySQLManager: Preparing to use a MySQL streaming 
resultset 

information schema 





rman 








图 8-11 


准备 用 于 测试 的 数据 。 MySQL 中 创建 sqoopdemo 数据 库 ， 在 这 个 数据 库 下 创建 dept 表 ,并 往 
dept 表 插入 两 条 记录 ， 结 果 如 图 8-12 所 示 。 
使 用 sqoop-list-tables 查看 MySQL 表 ， 命 令 如 下 所 示 。 








sqoop list-tables --connect jdbc:mysql://10.10.75.100:3306/sqoopdemo 
--username root --password root123 
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[ root@node0 sqoop]# mysql -uroot -prooti23 

Warning: Using a password on the command line interface can be insecure. 
Welcome to the MySQL monitor. Commands end with ; or Ag. 

Your MySQL connection id is 21 

Server version: 5.6.35 MySQL Community Server (GPL) 


Copyright (c) 2000, 2016, Oracle and/or its affiliates. All rights reserved. 


Oracle is a registered trademark of Oracle Corporation and/or its 
affiliates. Other names may be trademarks of their respective 
owners. 


Type 'help;' or'*h' for help. Type '*c to clear the current input statement. 


mysql> create database sqoopdemo; 
Query OK, 1 row affected (0.00 sec) 


mysql> use sqoopdemo; 

Database changed 

mysql> create table dept(id int, name varchar(20), primary key(id)); 
Query OK, 0 rows affected (0.01 sec) 


mysql> insert into dept values(610,' cloud computering ); 
Query OK, 1 row affected (0.01 sec) 


mysql> insert into dept values(620,' big data’ ); 
Query OK, 1 row affected (0.00 sec) 








图 8-12 


操作 结果 ， 如 图 8-13 所 示 。 


[ rootünodeo sqoop]# sqoop list-tables --connect jdbc: mysql: //10. 10. 75. 100: 3306/sqoopdemo --username root --password rooti23 
Warning: /opt/cloudera/parcels/CDH-5. 11. 2-1. cdh5. 11. 2. pO. 4/bin/../lib/sqoop/../accumulo does not exist! Accumulo imports will fai 
Please set $ACCUMULO HOME to the root of your Accumulo installation. 

18/05/10 11:57:54 INFO sqoop.Sqoop: Running Sqoop version: 1.4. 6-cdh5. 11.2 

18/05/10 11:57:54 WARN tool. BaseSqoopTool: Setting your password on the command-line is insecure, Consider using -P instead. 
18/05/10 11:57:85 INFO manager.MySQLManager: Preparing to use a MySQL streaming resultset. 

dept 

[ rootünodeo sqoop] B 





图 8-13 


将 MySQL 数据 库 的 表 dept 导入 HDFS， 命 令 如 下 ，Sqoop 在 运行 的 时 候 ， 最 终 会 转换 成 
MapReduce 作业 提交 执行 。 


sqoop import onnect jdbc:mysql1://10.10.75.100:3306/sqoopdemo 
--username root password root123 -table dept -m 1 -target-dir /user/dept 


利用 hdfs dfs -ls /user/dept 等 HDFS 的 shell 命令 进行 操作 结果 验证 ， 如 图 8-14 所 示 。 








[ hdfs@node0 ~]$ hdfs dfs -ls /user/dept 
Found 2 items 


-rw-r--r-- 8 root supergroup 0 2018-05-10 12:04 /user/dept/ SUCCESS 
-rw-r--r-- 3 root supergroup 35 2018-05-10 12:04 /user/dept/part-m-00000 
[hdfsünodeo ~]$ hdfs dfs -cat /user/dept/part-m-00000 

610, cloud computering 

620, big data 





图 8-14 


接 下 来 演示 数据 导入 MySQL 。 先 清空 表 dept 的 所 有 数据 ， 使 用 命令 是 truncate 
sqoopdemo.dept， 然 后 将 数据 从 HDFS 导出 到 MySQL 数据 库 的 表 dept， 命 令 如 下 : 
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Sqoop export --connect jdbc:mysql://10.10.75.100:3306/sqoopdemo 


--username root --password root123 --table dept -m 1 


操作 及 结果 分 别 如 图 8-15、 图 8-16 所 示 。 


TWIHVE] EEV, RRIS) FRAU 有 BITT 





-export-dir /user/dept 








00 

[ hdfsĝnode0 ~]$ hdfs dfs -cat /user/dept/part-m-00000 

610, cloud computering 

620, big data 

[ hdfs@node0 ~]$ sqoop export --connect jdbc: mysql: //10. 10. 75. 100: 3306/sqoopdemo 
--username root --password root123 --table dept -m 1 --export-dir /user/dept 
Warning: /opt/cloudera/parcels/CDH-5. 11. 2-1. cdh5. 11. 2. po. 4/bin/. . /lib/sqoop/. . /a 
ccumulo does not exist! Accumulo imports will fail. 

Please set $ACCUMULO HOME to the root of your Accumulo installation. 

18/09/04 10:19:35 INFO sqoop. Sqoop: Running Sqoop version: 1.4.6-cdh5.11.2 
18/09/04 10:19:35 WARN tool. BaseSqoopTool: Setting your password on the command- 
line is insecure. Consider using -P instead. 

18/09/04 10:19:35 INFO manager. MySQLManager: Preparing to use a MySQL streaming 
resultset. 

18/09/04 10:19:35 INFO tool. CodeGenTool: Beginning code generation 

18/09/04 10:19:36 INFO manager. SqlManager: Executing SQL statement: SELECT t.* F| 
ROM ^dept^ AS t LIMIT 1 

18/09/04 10:19:36 INFO manager. SqlManager: Executing SQL statement: SELECT t.* F 
ROM ^dept^ AS t LIMIT 1 

18/09/04 10:19:36 INFO orm. CompilationManager: HADOOP MAPRED HOME is /opt/cloude 
ra/parcels/CDH/lib/hadoop-mapreduce 








图 8-15 


mysql> truncate sqoopdemo. dept; 
Query OK O rows affected (0.01 sec) 


mysql> select * from sqoopdemo. dept; 
Empty set (0.00 sec) 


mysql> select * from sqoopdemo. dept; 
M----- +------------------- 十 
| name 

+----- +------------------- 十 

cloud computering | 

big data l 
+----- +------- + 
2 rows in set (0.00 sec) 





mysql> [] 


图 8-16 


在 MySQL 数据 库 dept 表 中 再 次 插入 数据 insert into dept values(630,iot)， 现 在 使 用 Sqoop 增 
量 导 入 HDFS, Sqoop 的 增 量 导入 有 append #l lastmodified 两 种 模式 .lastmodified 模式 区 别 于 append 
的 是 可 以 指定 为 一 个 时 间 戳 字段 ， 按 照 时 间 顺 序 导 入 ， 这 种 模式 可 以 指定 增 量 数据 在 HDFS 存在 
的 方式 ， 比 如 最 终 增 量 结果 为 一 个 文件 。 

需要 应 用 的 主要 Sqoop 参数 如 下 。 

*  -checkcolumn: 指定 增 量 导入 的 依赖 字段 ， 通 常 为 自 增 的 主键 i 或 者 时 间 惟 。 

e -incremental: 指定 导入 的 模式 (append 或 lastmodified ) 。 

* -last-value: 指定 导入 的 上 次 最 大 值 ， 也 就 是 这 次 开始 的 值 。 


Sqoop 增 量 导入 HDFS 的 操作 示例 命令 如 下 : 
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Sqoop import --connect jdbc:mysql://10.10.75.100:3306/sqoopdemo 
--username root --password rootl123 --table dept -m 1 --target-dir /user/dept 
--incremental append --check-column id 





使 用 HDFS 的 shell 命令 操作 验证 结果 ， 如 图 8-17 所 示 。 


[ hdfsünodeO ~]$ hdfs dfs -ls /user/dept 
Found 3 items 













-rw-r--r-- 3 root supergroup 0 2018-05-10 12:04 /user/dept/ SUCCESS 
-rw-r--r-- 3 root supergroup 35 2018-05-10 12:04 /user/dept/part-m-00000 
-rw-r--r-- 3 root supergroup 43 2018-05-10 13:06 /user/dept/part-m-00001 






[ hdfsünodeO -1$ hdfs dfs -cat /user/dept/part-m-00001 
610, cloud computering 

620, big data 

630, iot 

[ hdfsünodeo -1$ B 








图 8-17 


MySQL 5 Hive 之 间 的 数据 转移 。 把 MySQL 的 数据 导入 到 Hive 中 ， 操 作 命令 如 下 : 


Sqoop import onnect jdbc:mysql1://10.10.75.100:3306/sqoopdemo 





--username root password rootl123 --table dept -m 1 ive-import 


具体 执行 结果 如 图 8-18. KI 8-19 所 示 〈 篇 幅 所 限 ， 不 能 完整 贴图 ) 。 


[ hdfsünodeO -]$ sqoop import --connect jdbc: mysql: //10. 10. 75. 100: 3306/ sqoopdemo 
--username root --password rooti23 --table dept -m 1 --hive-import 

Warning: /opt/cloudera/parcels/CDH-5. 11. 2-1. cdh5. 11. 2. pO. 4/bin/. . /lib/sqoop/../a 
ccumulo does not exist! Accumulo imports will fail. 

Please set $ACCUMULO HOME to the root of your Accumulo installation. 

18/09/04 10:37:36 INFO sqoop. Sqoop: Running Sqoop version: 1.4.6-cdh5.11.2 
18/09/04 10:37:36 WARN tool. BaseSqoopTool: Setting your password on the command- 
line is insecure. Consider using -P instead. 

18/09/04 10:37:36 INFO tool.BaseSqoopTool: Using Hive-specific delimiters for ou 
tput. You can override 

18/09/04 10:37:36 INFO tool. BaseSqoopTool: delimiters with --fields-terminated-b 
y etc. 

18/09/04 10:37:36 INFO manager.MySQLManager: Preparing to use a MySQL streaming 
resultset. 

18/09/04 10:37:36 INFO tool. CodeGenTool: Beginning code generation 

18/09/04 10:37:37 INFO manager. SqlManager: Executing SQL statement: SELECT t.* F| 
ROM "dept? AS t LIMIT 1 





图 8-18 





18/09/04 10:38:05 INFO mapreduce. ImportJobBase: Transferred 43 bytes in 24.8893 
seconds (1.7277 bytes/sec) 

18/09/04 10:38:05 INFO mapreduce. ImportJobBase: Retrieved 3 records. 

18/09/04 10:38:05 INFO manager. SqlManager: Executing SQL statement: SELECT t.* F| 
ROM "dept? AS t LIMIT 1 

18/09/04 10:38:05 INFO hive.Hivelmport: Loading uploaded data into Hive 


Logging initialized using configuration in jar: file: /opt/cloudera/parcels/CDH-5. 
11. 2-1. cdh5. 11. 2. p0. 4/ jars/hive- common- 1. 1. 0- cdh5. 11. 2. jar! /hive-log4j. propertie| 
s 

oK 

Time taken: 2.155 seconds 

Loading data to table default. dept 

Table default. dept stats: [numFiles-1, totalSize-43] 

oK 

Time taken: 0.641 seconds 

[ hdfsünodeo ~] $ 








图 8-19 
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启动 Hive 命令 ， 通 过 Hive 的 HiveQL 语句 在 Hive 中 验证 结果 ， 如 图 8-20 所 示 。 
hdfsbnode0 -]$ hive 





Logging initialized using configuration in jar: file: /opt/cloudera/parcels/CDH-5. 11. 2-1. cdh5. 11 
||. 2. po. 4/ jars/hive- common- 1. 1. 0- cdh5. 11. 2. jar! /hive-log4j. properties 

WARNING: Hive CLI is deprecated and migration to Beeline is recommended. 

hive» show tables; 

0K 

dept 

Time taken: 0.893 seconds, Fetched: 1 row(s) 

hive» select * from dept; 


OK 

610 cloud computering 
620 big data 

630 iot 





Time taken: 0.535 seconds, Fetched: 3 row(s) 
iive || 
图 8-20 











Hive 表 数 据 导出 到 MySQL 数据 库 。 YE MySQL 中 先 执行 truncate table dept 命令 把 表 的 数据 清 
空 ， 然 后 执行 Sqoop 操作 命令 ， 如 图 8-21 所 示 ， 其 中 -m 1 参数 代表 的 含义 是 使 用 多 少 个 并 行 ， 
这 个 参数 的 值 是 1， 说 明 没有 开启 并 行 功能 。 将 m 参数 的 数值 调 为 5 (或 者 更 大 ) ，Sqoop REF 
启 5 个 进程 ， 同 时 进行 数据 的 导入 操作 。 执 行 成 功 后 ， 你 可 以 到 MySQL 数据 库 查询 dept 表 ， 发 现 
有 数据 进来 了 。 
Sqoop export --connect jdbc:mysql://10.10.75.100:3306/sqoopdemo 
--username root --password rootl23 --table dept -m 1 --export-dir 


/user/hive/warehouse/dept --input-fields-terminated-by 'V0001' 





[ hdfsünodeO ~]$ sqoop export --connect jdbc: mysql: //10. 10. 75. 100: 3306/ sqoopdemo 
--username root --password root123 --table dept -m 1 --export-dir /user/hive/war 
ehouse/dept --input-fields-terminated-by ° X0001" 

Warning: /opt/cloudera/parcels/CDH-5. 11. 2-1. cdh5. 11. 2. p0. 4/bin/. . /lib/sqoop/../a 
ccumulo does not exist! Accumulo imports will fail 

Please set $ACCUMULO HOME to the root of your Accumulo installation. 

18/09/04 11:25:26 INFO sqoop. Sqoop: Running Sqoop version: 1.4.6-cdh5. 11.2 
18/09/04 11:25:27 WARN tool. BaseSqoopTool: Setting your password on the command- 
line is insecure. Consider using -P instead. 

18/09/04 11:25:27 INFO manager. MySQLManager: Preparing to use a MySQL streaming 
resultset. 

18/09/04 11:25:27 INFO tool. CodeGenTool: Beginning code generation 

18/09/04 11:25:27 INFO manager. SqlManager: Executing SQL statement: SELECT t.* F 
ROM `dept` AS t LIMIT 1 

18/09/04 11:25:27 INFO manager. SqlManager: Executing SQL statement: SELECT t.* F 
ROM `dept` AS t LIMIT 1 

18/09/04 11:25:27 INFO orm. CompilationManager: HADOOP MAPRED HOME is /opt/cloude 
ra/ parcels/CDH/lib/hadoop-mapreduce 








图 821 


启动 HBase， 在 HBase 中 创建 一 张 表 ， 如 图 8-22 所 示 。 
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[ hdfs@node0 ~]$ hbase shell 

18/05/10 13:25:23 INFO Configuration. deprecation: hadoop. native, Lib is deprecated. Instead, us 
e io. native. lib. available 

HBase Shell; enter 'helpcRETURN»' for list of supported commands. 

Type "exit<RETURN>” to leave the HBase Shell 

Version 1.2.0-cdh5. 11.2, rUnknown, Fri Aug 18 14:10:19 PDT 2017 


hbase(main):001:0» create 'hbase dept',' col family 
0 row(s) in 1.6620 seconds 


-» Hbase::Table - hbase dept 
hbase(main):002:0» H 








图 8-22 


然后 使 用 Sqoop 操作 将 数据 从 MySQL 导入 到 HBase， 命 令 如 下 : 


Sqoop import --connect jdbc:mysql://10.10.75.100:3306/sqoopdemo 


--username root --password rootl23 --table dept --hbase-create-table 
--hbase-table hbase dept --column-family col family --hbase-row-key id 


在 HBase 中 验证 Sqoop 操作 的 结果 ， 发 现 数据 果然 导入 进来 了 ， 如 图 8-23 所 示 。 


' hbase dept" 
COLUMN* CELL 
column-col family: name, timestamp-1525930322019, value-cloud computer 
ing 





column-col family: name, timestamp-1525930335933, value-big data 
column-col family: name, timestamp-1525930342877, value-iot 





图 823 


sOs 
分 布 式 数据 库 HBase 


HBase 是 Hadoop 的 数据 库 ， HBase 是 一 个 分 布 式 的、 面向 列 的 开源 数据 库 ， 它 不 同 于 一 般 
的 关系 数据 库 ， 是 一 个 适合 非 结构 化 数据 存储 的 数据 库 。HBase 利用 Hadoop 的 HDFS 作为 其 文件 
存储 系统 ， 利 用 ZooKeeper 作为 其 协调 工具 ， 非 常 适合 用 来 进行 大 数据 的 实时 读 写 。 





9.1 HBase 概述 


HBase 是 谷歌 公司 BigTable 的 开源 版 本 。 是 建立 在 HDFS 之 上 ， 提 供 高 可 靠 性 、 高 性 能 、 列 
存储 、 可 伸缩 、 实 时 读 写 的 分 布 式 列 存 储 的 开源 数据 库 系统 。HBase 现在 是 Apache 的 Hadoop 项 
目的 子 项 目 。HBase 中 每 张 表 的 记录 数 〈 行 数 ) 可 多 达 几 十 亿 条 ， 甚 至 更 多 ， 每 条 记录 可 以 拥有 多 
达 上 百 万 的 字段 。 而 这 样 的 存储 能 力 却 不 需要 特别 的 硬件 ， 普 通 的 PC 服务 器 集群 就 可 以 胜任 。 

HBase 的 技术 特点 如 下 。 

(OD 大 表 : 一 个 表 可 以 有 上 亿 行 ， 上 百 万 列 ， 提 供 海量 数据 存储 能 力 ， 可 提供 高 达 几 百 亿 条 

(2) 列 式 存储 : 面向 列 族 (Column Family) 的 存储 和 权限 控制 ， 列 族 独 立 检索 。 

G) 表 数 据 是 稀疏 的 多 维 映射 表 ， 表 中 的 数据 通过 一 个 行 关键 字 (Row Key) 、 一 个 列 关 键 
字 (Column Key) 以 及 一 个 时 间 戳 (Time Stamp) 进行 索引 和 查询 定位 ， 使 用 时 间 戳 允许 数据 有 
多 个 版 本 。 

(4) NoSQL 数据 库 典 型 产品 : 更 加 简单 的 数据 模型 ， 主 要 用 来 存储 非 结构 化 和 半 结 构 化 的 数 
据 ， 不 存在 复杂 的 表 与 表 之 间 的 关系 ， 不 支持 事务 。 

HBase 提供 Native Java API、HBase shell、Thrift Gateway、Hive 等 多 种 访问 方式 。HBase 实际 
使 用 HDFS 作为 底层 数据 存储 方式 ， 提 高 了 数据 可 靠 性 。 
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9.2 HBase 数据 模型 


HBase 表 是 一 个 稀 朴 多 维 表 ， 表 中 的 数据 是 未 经 解释 的 字符 串 ， 没 有 数据 类 型 ， 每 一 行 都 有 
一 个 行 键 ， 表 被 分 组 成 许多 列 族 集合 ， 列 族 支持 动态 扩展 ， 可 以 很 方便 地 添加 一 个 列 族 或 列 ， 无 须 
事先 预定 于 列 的 数量 和 类 型 ， 所 有 列 都 是 以 字符 串 形式 存储 。 在 HBase 中 进行 更 新 操作 ， 是 生成 
一 个 新 的 版 本 , 原 有 的 版 本 仍然 保留 , 可 以 设置 保留 的 版 本 数量 , 如 果 在 查询 的 时 候 不 提供 时 间 戳 ， 
那 就 会 获得 最 近 的 一 个 版 本 的 数据 。 下 面 对 Row Key, Column Family. Column Name, Time Stamp 
进行 简要 的 介绍 。 

(1) 行 键 (Row Key) 

HBase 一 张 表 中 可 以 有 上 亿 行 记录 ， 每 一 行 都 由 一 个 行 关键 字 row key 来 标识 。HBase 保证 对 
所 有 行 按照 row key 进行 字典 顺序 排序 存储 。Row Key ( 行 键 )》 可 以 是 任意 字符 串 〈 最 大 长 度 是 
64KB, 实际 应 用 中 长 度 一 般 为 10~100 字 节 ) 。 与 关系 数据 库 的 主键 primary key 不 同 的 地 方 , HBase 
中 的 Row Key 只 能 是 一 个 字段 而 不 能 是 多 个 字段 的 组 合 。 

(2) 列 族 (Cloumn Family, CF) 和 列 

HBase 表 中 的 每 个 列 , 都 归属 于 某 个 列 族 。 列 族 必须 在 使 用 表 之 前 定义 ( 列 不 需要 事先 定义 ) ， 
列 族 数量 不 能 太 多 , 列 名 都 以 列 族 作 为 前 级 ,例如 courses:english、courses:history 都 属于 courses 这 
个 列 族 。 在 每 个 列 族 中 ， 可 以 存放 很 多 的 列 ， 而 每 行 每 列 族 中 的 列 数量 可 以 不 同 。 

(3) IN TRIER (Time Stamp? 

HBase 中 通过 行 关键 字 、 列 〈 列 族 名 和 列 名 ) 和 时 间 戳 的 三 元 组 确定 一 个 存储 单元 Ccell) o 
每 个 cell 都 保存 着 同一 份 数据 的 多 个 版 本 ,不 同 版 本 的 数据 按照 时 间 倒 序 排序 ， 即 最 新 的 数据 
排 在 最 前 面 。 版 本 通过 时 间 惟 来 索引 。 时 间 戳 的 类 型 是 64 位 整 型 。 时 间 戳 可 以 由 HBase (在 
数据 写 入 时 自动 ) 赋值 ， 此 时 时 间 戳 是 精确 到 毫秒 的 当前 系统 时 间 。 时 间 戳 也 可 以 由 用 户 自己 
赋值 。 








9.3 HBase 生态 地 位 和 系统 架构 


9.3.1 HBase 的 生态 地 位 解析 


如 图 9-1 所 示 , 描述 了 Hadoop 生态 圈 中 的 各 层 系 统 , 其 中 HBase 位 于 结构 化 存储 层 ; Hadoop 
HDFS 为 HBase 提供 了 高 可 靠 性 的 底层 存储 支持 ; Hadoop MapReduce 为 HBase 提供 了 高 性 能 的 计 
算 能 力 ; ZooKeeper 为 HBase 提供 了 稳定 服务 failover 〈 故 障 转移 ) 机 制 。 此 外 ，Pig 和 Hive 还 为 
HBase 提供 了 高 层 语言 支持 ,使 得 在 HBase 上 进行 数据 统计 处 理 变 得 非常 简单 。Sqoop 则 为 HBase 
提供 了 方便 的 关系 数据 库 数 据 导 入 功能 ， 使 得 关系 数据 库 数据 向 HBase 中 迁移 变 得 非常 方便 。 
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数据 挖 扬 数据 流 处 理 语言 数据 仓库 


MapReduce 
分 布 式 计算 框架 


E HBase B 
i ] 实时 、 分 布 式 、 高 维 数据 库 
u 


HDFS 
分 布 式 文件 系统 


图 9-1 


由 于 HDFS 不 适合 低 延 迟 数据 访问 ， 也 不 能 执行 随机 写 操作 ， 因 此 对 于 低 延 迟 应 用 程序 、 大 
量 的 随机 读 应 用 的 场景 下 , HBase 是 比较 好 的 选择 。HBase 通过 精致 设计 的 算法 实现 了 对 高 并 发 数 
据 随机 读 写 的 完美 支持 。 


: Mahout Pig Hive 





Zookeeper 
分 布 式 协作 服务 





9.3.2 HBase 系统 架构 


HBase 的 系统 架构 如 图 9-2 所 示 ， 包 括 ZooKeeper 服务 器 、Master 服务 器 、Region 服务 器 。 
HBase 一 般 采 用 HDFS 作为 底层 数据 存储 。 


Zookeeper cluster 


I- 


Zookeeper Zookeeper Zookeeper 
















Master 






Client 





Region server cluster 


9959525 


Region server Region server Region server Region server 





图 9-2 


(1) Master 
HBase Master 用 于 协调 多 个 Region Server， 侦 测 各 个 Region Server 之 间 的 状态 ， 并 实现 不 


同 Region Server 之 间 的 负载 均衡 。HBase Master 还 有 一 个 职责 就 是 负责 分 配 Region 给 Region 
Server。HBase 中 可 以 启用 多 个 Master， 但 是 这 需要 ZooKeeper 选举 出 一 个 Master 作为 集群 的 总 
管 ， 并 保证 在 任何 时 刻 总 有 唯一 一 个 Master 是 提供 服务 的 ， 其 他 的 Master 节点 处 于 待命 的 状态 ， 
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这 避免 了 Master 单 点 失效 问题 。 
(2) Region Server 
Region Server ( F XEFE Region 服务 器 ) 响应 用 户 的 读 写 请 求 ， 维 护 分 配给 自己 的 Region. 
对 于 一 个 Region Server 而 言 ， 其 包括 了 多 个 Region. Region Server 的 作用 只 是 管理 表格 ， 以 及 
实现 读 写 操作 。 Client 直接 连接 Region Serves. 并 通信 获取 HBase 中 的 数据 , Region 是 HBase 可 
用 性 和 分 布 式 的 基本 单位 。 
(3) ZooKeeper 
对 于 HBase 而 言 ，ZooKeeper 的 作用 是 至 关 重 要 的 。 首 先 ZooKeeper 是 作为 HBase Master 
的 HA 解决 方案 。 几 乎 所 有 的 分 布 式 大 数据 相关 的 开源 框架 ， 都 依赖 于 ZooKeeper 实现 HA, AE 
ZooKeeper 保证 了 至 少 有 一 个 HBase Master 处 于 运行 状态 。HBase 客户 端 是 借助 ZooKeeper 来 获 
得 Region 的 位 置信 息 的 ， 每 个 Region Server 都 要 到 ZooKeeper 中 进行 注册 。ZooKeeper 实时 监 
控 每 个 Region Server 的 状态 并 通知 给 Master. 
(4) Client 
Client 包含 访问 HBase 的 接口 ，Client 同时 维护 着 一 些 cache 来 加 快 对 HBase 的 访问 ， 比 如 组 
存 已 经 访问 过 的 Region 的 位 置信 息 。Client 访问 HBase 上 数据 的 过 程 并 不 需要 Master 参与 〈 寻 址 
访问 ZooKeeper 和 Region Server， 数 据 读 写 访问 Region Server? ，Master 仅仅 维护 表 和 Region 的 
元 数据 信息 ， 负 载 很 低 。 


9.4 HBase 运行 机 制 


9.4.1 Region 


已 经 提 到 过 ,Table 中 的 所 有 行 都 按照 row key 的 字典 顺序 排列 。Table 包含 的 行 的 数量 可 能 非 
常 庞大 , 无 法 存储 在 一 台 机 器 上 , 需要 分 布 存储 到 多 台 机 器 上 , 因此 在 行 的 方向 上 分 割 成 多 个 分 区 ， 
被 称 为 Region。 

Region 是 HBase 负载 均衡 和 调度 的 基本 单位 。 每 个 表 一 开始 只 有 一 个 Region， 随 着 数据 不 断 
插入 表 , Region 不 断 增 大 , 当 增 大 到 一 个 阀 值 的 时 候 , Region 就 会 被 分 成 两 个 新 的 Region, 当 Table 
中 的 行 不 断 增多 ， 就 会 有 越 来 越 多 的 Region。 

不 同 的 Region 可 以 分 布 在 不 同 的 Region Server 上 (每 个 Region Server 会 存储 10-1000 个 
Region, 一 个 Region 的 默认 大 小 是 100MB 到 200MB , 但 同一 个 Region 是 不 会 拆 分 到 多 个 Region 
Server 上 的 。Region 的 元 数据 即 是 Region 和 Region 服务 器 之 间 的 对 应 关系 。 





9.4.2 Region Server 工作 原理 


Region Server 内 部 管理 了 一 系列 Region 对 象 和 一 个 HLog 文件 ,HLog 是 磁盘 上 面 的 记录 文件 ， 
记录 着 所 有 的 更 新 操作 。 每 个 Region Server 只 需要 维护 一 个 HLog 文件 ， 所 有 Region 对 象 共用 一 
个 HLog， 多 个 Region 对 象 的 更 新 操作 的 日 志 记录 不 断 追 加 到 单个 日 志文 件 中 。 
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每 个 Region 对 象 又 是 由 一 个 或 者 多 个 Store 组 成 的 。 每 个 Store 包含 MemStore 和 StoreFile， 
MemStore 是 在 内 存 中 的 缓存 ， 保 存 最 近 更 新 的 数据 。HRegion 会 将 大 量 的 热 数 据 、 访 问 频 次 最 高 
的 数据 存储 到 MemStore 中 ， 这 样 用 户 在 读 写 数据 的 时 候 不 需要 从 磁盘 中 进行 操作 ， 直 接 在 内 存 中 
既 可 以 读 取 到 数据 ， 正 因为 MemStore 这 个 重要 角色 的 存在 ，HBase 才能 支持 随机 、 高 速 读 取 的 功 
能 。StoreFile 是 硬盘 中 的 文件 ， 在 底层 的 实现 方式 是 以 HFile 文件 格式 保存 在 HDFS 上 ， 而 这 些 
HFile 文件 在 HDFS 里 面 可 能 是 分 布 式 的， 分 布 存储 在 不 同 的 物理 节点 上 。 

分 布 式 环境 必须 考虑 系统 出 错 的 情况 。HBase 采用 HLog 保证 系统 恢复 ， 它 是 一 种 预 写 式 日 志 

(Write Ahead Log) 。 用 户 的 更 新 数据 必须 首先 写 入 日 志 后 ， 才 能 写 入 MemStore 缓存 ， 并 且 直 
到 MemStore 缓存 内 容 对 应 的 日 志 已 经 写 入 磁盘 ， 该 缓存 内 容 才 会 被 刷 写 到 磁盘 。 





9.4.3 Store 工作 原理 


Region Server 的 核心 是 Store， 每 个 Store 对 应 了 表 中 的 一 个 列 族 的 存储 。 每 个 Store 包含 一 个 
MemStore 〈 内 存 缓冲 区 ) 和 多 个 StoreFile。 用 户 写 入 数据 时 ， 系 统 先 把 数据 放 入 MemStore， 当 
MemStore 缓存 满 了 ， 再 刷新 到 磁盘 的 一 个 StoreFile 文件 中 。 当 单个 StoreFile 文件 大 小 超过 一 定 阀 
值 ， 就 会 触发 文件 的 分 裂 操作 ， 同 时 当前 一 个 父 Region 会 被 分 裂 成 2 个 子 Region。 新 分 裂 出 的 2 
个 子 Region 会 被 Master 服务 器 分 配 到 相应 的 Region 服务 器 上 。 


9.5 ”HBase 操作 实战 


9.5.1 HBase 常用 shell 命令 


通过 Cloudera Manager 管理 界面 添加 服务 安装 HBase 组 件 ， 安 装 后 可 以 查看 HBase 状态 ， 如 
图 9-3 所 示 。 


群集 ~ 机 ~ 





@ HBase (custeri) #ff- 


状态 实例 配置 命令 EAE 表 统 计 信 息 WR — HBase Web Ul 
运行 状况 测试 nues 

es 良好 状 

状态 摘要 
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HBase 为 用 户 提供 很 方便 的 shell 命令 ， 通 过 这 些 命令 对 HBase 的 表 、 列 族 、 列 等 进行 操作 。 
3:801 / 执行 创建 表 的 命令 create member 'member_id''address''info', X member 创建 了 3 个 

列 族 ， 分 别 是 member id. address 和 info， 如 图 9-4 所 示 。desc 命令 获取 表 定 义 信息 ， 包 含 表 的 所 
有 列 族 、 属 性 名 、 属 性 值 。 


ase(main):004:0» create member , member id, address , info 
O row(s) in 1.4270 seconds 








=> Hbase::Table - member 

hbase(main):005:0» desc ' member 

Table member is ENABLED 

member 

COLUMN FAMILIES DESCRIPTION 

{NAME => 'address', DATA BLOCK ENCODING => 'NONE', BLOOMFILTER => ”ROW ， REPLICA| 
|, TTL => 'FOREVER', KEEP DELETED CELLS => ”FALSE ， BLOCKSIZE => '65536' , IN MEM 
(NAME => 'info', DATA BLOCK ENCODING => 'NONE', BLOOMFILTER => °’ ROW , REPLICATIO| 
[TTL => 'FOREVER', KEEP DELETED CELLS => 'FALSE', BLOCKSIZE => '65536', IN MEMORY| 
(NAME => 'member id', DATA BLOCK ENCODING => 'NONE', BLOOMFILTER => ° ROW, REPLI 
| 0', TTL => 'FOREVER', KEEP DELETED CELLS => 'FALSE', BLOCKSIZE => '65536', IN M 




















图 94 


35:02 / 删除 一 个 列 族 。 我 们 之 前 建 了 3 个 列 族 ， 但 是 发 现 member. id 这 个 列 族 是 多 余 的 。 
删除 列 族 的 时 候 必须 先 将 表 给 disable， 命 令 如 下 : 


disable 'member' 


Alter 'member',(NAME-»'member id',METHOD-?'delete'] 
enable 'member' 





步骤 034 插入 几 条 记录 ， 命 令 格式 : put 表 名 row key CF:column values HBase 把 put 命令 
操作 中 跟 在 表 名 后 的 第 一 个 数据 作为 行 键 。HBase 使 用 put 命令 添加 数据 ， 一 次 只 能 为 一 个 表 的 
行 数据 的 一 个 列 添加 一 个 数据 , 这 种 直接 用 shell 命令 插入 数据 效率 很 低 ,实际 应 用 中 一 般 是 利用 编 
程 操作 数据 。 























put'member','scutshuxue','info:age','24' 
put'member','scutshuxue','info:birthday','1987-06-17' 
put'member','scutshuxue','info:company', 'alibaba' 
put'member','scutshuxue','address:contry','china' 
put'member','scutshuxue','address:province', 'zhejiang' 
put'member','scutshuxue','address:city', 'hangzhou' 
put'member','xiaofeng','info:birthday','1987-4-17' 
put'member','xiaofeng','info:favorite', 'movie' 
put'member','xiaofeng','info:company','alibaba' 
put'member','xiaofeng','address:contry',' 'china' 
put'member','xiaofeng','address:province', 'guangdong' 
put'member','xiaofeng','address:city','jieyang' 
put'member','xiaofeng','address:town','xiangiao' 


步骤 044 HBase 查看 数据 有 两 个 命令 ， 一 个 是 get 命令 用 于 查看 表 的 某 个 单元 格 数据 ， 一 个 
是 scan 命令 用 于 查看 某 个 表 的 全 部 数据 。 获 取 一 个 row key 的 所 有 数据 ， 执 行 命令 get 
'member','scutshuxue'"， 如 图 9-5 所 示 。 
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hbase(main?:004:0» get 'member',' scutshuxue 

COLUMN CELL 

address: city timestamp-1525496275832, value-hangzhou 
address: contry timestamp-1525496275766, value-china 


address: province timestamp-1525496275801, value-zhejiang 
info: age timestamp-1525496275602, value-24 
info: birthday timestamp-1525496275691, value-1987-06-17 
info: company timestamp-1525496275723, value-alibaba 

6 row(s) in 0.2100 seconds 





图 9-5 


获取 member Æ, scutshuxue 中 的 info 列 族 下 的 一 个 列 age 的 值 ， 操 作 命 令 为 get 
'member'/'scutshuxue'/info:age', WE] 9-6 所 示 。 


hbasećmain): 006: 0> get ° member ,' scutshuxue',' info: age 
COLUMN CELL 
info: age timestamp=1525496275602, value=24 
1 row(s) in 0.0140 seconds 





图 9-6 


全 表 扫 描 scan 'member', ifi] member 表 的 全 部 数据 ， 如 图 9-7 所 示 。 








hbase(main):010:0» scan ' member 

ROW COLUMN* CELL 

Scutshuxue column-address: city, timestamp-1525496275832, value-hangzhou 

scutshuxue column=address: contry, timestamp-1525496275766, value-china 

scutshuxue column-address: province, timestamp-1525496275801, value-zhej 
iang 

Scutshuxue column-info:age, timestamp-1525509159666, value-29 

scutshuxue column-info: birthday, timestamp-1525496275691, value-1987-06 
-17 

scutshuxue column=info: company, timestamp=1525496275723, value=alibaba 

xiaofeng column=address: city, timestamp=1525497562534, value=jieyang 

xiaofeng column=address: contry, timestamp=1525497562468, value=china 

xiaofeng column=address: province, timestamp=1525497562501, value=guan 
gdong 

xiaofeng column=address: town, timestamp-1525497562561, value-xianqiao 

xiaofeng column-info: birthday, timestamp-1525497562331, value-1987-4- 
17 

xiaofeng column-info: company, timestamp-1525497562416, value-alibaba 

xiaofeng column-info: favorite, timestamp-1525497562381, value-movie 

2 row(s) in 0.1580 seconds 





图 9-7 


HBase 的 数据 查询 读 取 ， 可 以 通过 单个 row key 访问 ，row key 的 range 和 全 表 扫 描 。HBase 
不 能 支持 where 条 件 、order by 查询 ， 只 支持 按照 row key 来 查询 ， 但 是 可 以 通过 HBase 提供 的 
API 进行 条 件 过 滤 。 
5805 更 新 一 条 记录 ， 将 scutshuxue 的 年 龄 改 成 29， 如 图 9-8 所 示 。 
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hbase(main): 007: 0> put ' member ,' scutshuxue',' info: age ,'29" 
0 row(s) in 0.1160 seconds 


hbase(main):008:0» get 'member',' scutshuxue', ' info: age" 
COLUMN CELL 

info: age timestamp-1525509159666, value-29 
1 row(s) in 0.0180 seconds 





图 9-8 


H Eh HC TUE DIG REED T ATOBERU INE TRIER RIP bdo MS. RRRA GS REL] 
时 间 戳 ， 即 两 个 历史 数据 ， 可 进行 自 定义 修改 保存 的 版 本 数 ， 如 图 9-9 所 示 。 


hbase(main):040:0» alter ° member’ ，{ NAME=>” info', VERSIONS=>5} 
Updating all regions with the new schema... 

0/1 regions updated. 

1/1 regions updated. 

Done. 





0 row(s) in 2.9510 seconds 





图 9-9 


接 下 来 更 新 数据 ， 使 其 产生 历史 版 本 数据 ， 更 新 表 数 据 与 插入 表 数 据 一 样 ， 都 使 用 put 命令 ， 
具体 命令 如 下 : 
'member','scutshuxue','info:age' ,'39' 
'member','scutshuxue','info:age' ,'49' 
'member','scutshuxue','info:age' ,'59' 
'member','scutshuxue', (COLUMN-»'info:age',VERSIONS-55) 


查询 时 默认 情况 是 显示 当前 最 新 版 本 的 数据 。 如 果 要 查询 历史 数据 ， 需 要 指定 查询 的 历史 版 
本 数 ， 如 图 9-10 所 示 。 








hbase(main?:047:0» get ' member',' scutshuxue' , (COLUMN-»' info: age' , VERSIONS=>5} 


COLUMN CELL 

info: age timestamp-1525523859363, value-59 
info: age timestamp-1525523807450, value-49 
info: age timestamp-1525523776570, value-39 
info: age timestamp-1525509159666, value-29 
info: age timestamp-1525496275602, value-24 


5 row(s) in 0.0330 seconds 





图 9-10 





步骤 06 删除 member 表 中 row key 为 temp 的 'info:age 字 段 , 命令 格式 : delete 表 名 row key 
cficolumn， 具 体 命令 为 delete 'member'/temp'/info:age'o MIER member 表 中 的 xiaofeng 行 的 全 部 数据 ， 
具体 命令 为 deleteall member,xiaofeng'。 

步骤 07 删除 member 表 需 要 分 两 步 操 作 ， 第 一 步 让 该 表 禁 用 disable 'member'， 第 二 步 删 除 
表 drop 'member'o 


9.5.2 ”HBase 编程 实践 


在 Eclipse 中 创建 Java 项 目 ，HBase 提供 了 Java API 对 HBase 数据 库 进 行 操作 。 为 了 能 和 HBase 交 
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互 ， 添 加 Java 工程 所 需要 的 JAR 包 ， 如 图 9-11 所 示 ， 这 些 JAR 包 位 于 HBase 安装 目录 的 lib 目录 下 。 











[ES] Properties for HBaseDemo u x 
type filter text Java Build Path NURSE USE 
Resource z LÀ 
š (9 Source © Projects EÀ Libraries ĉ Order and Export 
Builders 
Java Build Path JARs and class folders on the build path: 
Java Code Style activation-1.1jar - CAhbase1.2.4Vib ^ Add JARs... 
> Java Compiler aopalliance-1.0jar - CAhbase1.2.4Vib 
> Java Editor apacheds-i18n-2.0.0-M15jjar - CAhbase1.2.4AViE Add External JARs... 
Medos Location apacheds-kerberos-codec-2.0.0-M15.jar - Chl Add Variable... 
Project Facets api-asn1-api-1.0.0-M20.jar - CAhbase1.2.4Vib 
Project References api-util-1.0.0-M20jar - CAhbase1.2.4Vib. Add Library... 


Run/Debug Settings base1.2.4Vib 





Add Class Folder... 














» Task Repository Ahbase1.2.4Vib 
Task Tags Ë commons-beanutils-1.7.0jar - C\hbase1.2.4\ib | Add External Class Folder... 
Validation commons-beanutils-core-1.8.0jar - CAhbase1.z 
WikiText. i-1.2jar - CAhbase1.2.4Vib. Edit... 
F commons-codec-1.9jar - CAhbase1.2.4Vib 
commons-collections-3.2.2 jar - CAhbase1.24Vi Remove 
commons-compress-1.4.1.jar - CAhbase1.2.4Viil 
区 commons-configuration-1.6jar - CNhbase1.2.4\ Migrate JAR File... 





Ë commons-daemon-1.0.13 jar - C\hbase1.2.4\it 


à commons-diaester-1.Bjar - CAhbasel.24Mib Y 
> 








ea 














图 9-11 


编写 Java 应 用 程序 ， 对 HBase 数据 库 进 行 操作 ， 如 图 9-12 所 示 ， 由 于 篇 幅 限制 ， 完 整 的 源 代 
码 请 到 前 言 给 出 的 链接 处 下 载 。 





I] Java - HBaseDemo/src/HBaseDemo java - Eclipse 


File Edit Source Refactor Navigate Search Project Run Window Help 
[puce wü mR OO MV DO 


IS Package Explorer 5i 日 乞 | 多 "HD HeaseDemojava 





> (ë! hadoopapi 19 import java.io.IOException; 
v (9 HBaseDemo 2 import java.util.ArrayList; 
3 import java.util.Iterator; 
< import java.util.List; 
= 5 import org.apache.hadoop.conf.Configuration; 
> jJ] HBaseDemojava. € import org.apache.hadoop.hbase.HBaseConfiguration; 
> BÀ JRE System Library 1 import org.apache.hadoop.hbase.HColumnDescriptor 
> mà Referenced Libraries š import org.apache.hadoop.hbase.HTableDescriptor; 
> G WordCountDemo 2 import org.apache.hadoop.hbase.KeyValue; 
import org.apache.hadoop.hbase.client.Get; 
import org.apache.hadoop.hbase.client.HBaseAdmin; 
import org.apache.hadoop.hbase.client.HTable; 
import org.apache.hadoop.hbase.client.Put; 
import org.apache.hadoop.hbase.client.Result; 
import org.apache.hadoop.hbase.client.ResultScanner; 
16 import org.apache.hadoop.hbase.client.Scan; 
17 public class HBaseDemo | 
static HBaseAdmin hbaseAdmin; 
static Configuration hbaseConf; 
1- 创 建 表 
public void createTable(String tableName, String colFamilies[]) 
throws IOException ( 
if (this.hbaseAdmin.tableExists(rableName)) { 
System.out.println(": " + tableName + "已 经 存在 !"); 
) else í 
HIableDescriptor dsc = new HZableDeseripser(rableName); 
int len amilies.length; 


v $9 src 
v ÍB (default package) 























图 9-12 
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Export 导出 JAR 包 HBaseDemo.jar, 上 传 到 Hadoop 集群 节点 上 , 运行 java -jar HBaseDemo.jar, 
结果 如 图 9-13 所 示 。 


T3 5 
log4j: WARN No appenders could be found for logger (org. apache. hadoop. security. Groups). 
log4j: WARN Please initialize the log4j system properly. 

logaj: WARN See http: // logging. apache. org/ log4j/1.2/faq. html#noconfig for more info. 


rowl family: article qualifier: title timestamp: 1525446469845 value: HBase 
rowl family: author qualifier: name timestamp: 1525446469862 value: Cat 
: rowl family: author qualifier: nickname timestamp: 1525446469882 value: Tom 





图 9-13 


同时 通过 HBase 的 shell 命令 验证 结果 ， 如 图 9-14 所 示 。 





2 row(s) in 0.0080 seconds 


-» ["demo", "user"] 
hbase(main): 009: 0> count ' demo 
1 row(s) in 0,0270 seconds 


=> 1 

hbase(main): 010: 0> scan 'demo' 

ROW COLUMN* CELL 

rowl column=article: title, timestamp-1525446469845, value-HBase| 
rowi column-author: name, timestamp-1525446469862, value-Cat 
rowl column=author: nickname, timestamp-1525446469882, value-Tom 


1 row(s) in 0.0300 seconds 








hbase(main): 011: 0 
图 9-14 


9.5.0 HBase 参数 调 优 的 案例 分 享 


故障 现象 : 当 写 入 的 数据 总 量 超过 一 定数 量 (如 ITB 以 上 ) 时 ， 系 统 的 整体 访问 服务 将 大 受 
影响 ， 吞 吐 量 及 响应 时 间 变 得 不 稳定 。 

原因 分 析 : 对 表 预 建 了 20 个 Region， 随 着 数据 量 膨 胀 分 裂 到 了 160 个 ， 由 于 写 入 方式 是 完全 
随机 写 入 到 各 个 Region 中 ， 因 为 Region 数量 过 多 ， 大 量 时 间 浪 费 在 等 待 Region 释放 资源 ， 获 取 
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Region 连接 以 及 释放 连接 等 方面 。 
解决 方案 : 修改 配置 ， 如 图 9-15 所 示 。 


I HBase (custer1) 操作 ~ | 





状态 实例 配置 命令 MRF 表 统 计 信 息 审核 ”HBase Web Ule ”快速 链接 ~ 





eds 
hregion.max filesize 
vim 
HBase 文件 最 大 大 小 RegionServer Default Group .… 和 另 1 个 C 
hbasehregionmaxfllesize [nn || aca 
100 AFT X 
编辑 单个 值 到 
RegionServer 显示 | 25 了 | 每 页 
图 9-15 





Jig. 如 果 任 何 一 个 column family 里 的 StoreFile 超过 这 个 阀 值 ， 那么 这 个 Region 会 一 分 为 
二 ， 因 为 Region 分 裂 会 有 短暂 的 Region 下 线 时 间 (通常 在 5s 以内) 。 当 hbase.hregion.max .filesize 
的 值 比较 小 时 ， 触 发 split 分 裂 的 概率 更 大 。 当 大 量 的 Region 同时 发 生 split 时 ， 系 统 很 容易 出 现 知 
吐 量 及 响应 时 间 的 不 稳定 。 所 以 根据 实际 情况 , 修改 hbase.hregion.max.filesize 为 100G, 避免 Region 
过 于 频繁 分 裂 ， 减 少 对 业务 端的 影响 。 
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分 布 式 协调 服务 ZooKeeper 


ZooKeeper 是 针对 Google Chubby 的 开源 实现 , 分 布 式 的 、 用 Java 编写 的 、 开 放 源 码 的 分 布 式 
应 用 程序 协调 服务 。ZooKeeper 作为 一 个 高 可 用 的 分 布 式 服务 框架 , 主要 用 来 解决 分 布 式 集群 中 应 
用 系统 的 一 致 性 问题 。 它 可 以 减轻 分 布 式 应 用 程序 所 承担 的 协调 任务 ， 在 越 来 越 多 的 分 布 式 系统 
(Hadoop, HBase. Kafka) 中 ，ZooKeeper 都 作为 核心 组 件 使 用 ， 它 是 一 个 为 分 布 式 应 用 提供 一 致 
性 服务 的 软件 。 


10.1 ZooKeeper 的 特点 


ZooKeeper 工作 在 集群 中 ， 对 集群 提供 分 布 式 协调 服务 ， 它 提供 的 分 布 式 协调 服务 具有 如 下 的 

特点 。 

° 顺序 一 致 性 : 从 同一 个 客户 端 发 起 的 事务 请 求 ， 最 终 将 会 严格 按照 其 发 起 顺序 被 应 用 到 
ZooKeeper 中 。 

o RP: 所 有 事物 请 求 的 处 理 结果 在 整个 集群 中 所 有 机 器 上 的 应 用 情况 是 一 致 的 ， 即 : RA 
整个 集群 中 所 有 机 器 都 成 功 应 用 了 某 一 事务 ， 要 么 都 没有 应 用 ， 一 定 不 会 出 现 集群 中 部 分 机 
器 应 用 了 该 事务 ， 另 外 一 部 分 没有 应 用 的 情况 。 

e 最 终 一 致 性 : 无 论 客户 端 连 接 的 是 哪个 ZooKeeper 服务 器 ， 其 看 到 的 服务 端 数据 模型 都 是 一 
致 的 。 

o TEE: 一 旦 服务 端 成 功 地 应 用 了 一 个 事务 ， 并 完成 对 客户 端的 响应 ， 那 么 该 事务 所 引起 的 
服务 端 状态 变更 将 会 一 直 保留 下 来 ， 除 非 有 另 一 个 事务 又 对 其 进行 了 改变 。 

e ”及 时 性 : 保证 客户 端 在 一 定 的 时 间 间 隔 范 围 内 获得 服务 器 的 最 新 状态 。 
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10.2. ZooKeeper 的 工作 原理 


10.2.1 基本 架构 


ZooKeeper 本 身 支 持 单机 部 署 和 集群 部 署 ， 生产 环境 建议 使 用 集群 部 署 ， 因 为 集群 部 署 不 存在 
单 点 故障 问题 ， 并 且 ZooKeeper 建议 部 署 的 节点 个 数 为 奇数 个 ， 只 有 超过 一 半 的 机 器 不 可 用 整个 
ZK (ZooKeeper 简称 ) 集群 才 不 可 用 。 

ZooKeeper 集群 中 主要 有 两 个 角色 Leader 和 Follower, ZooKeeper 集群 的 所 有 机 器 通过 一 个 
Leader 选举 过 程 来 选 定 一 台 被 称 为 Leader 的 机 器 ， 一 个 ZooKeeper 集群 同一 时 刻 只 会 有 一 个 
Leader， 其 他 都 是 Followers Leader 负责 整个 ZooKeeper 集群 的 消息 接收 和 分 发 ， 接 到 消息 后 会 广 
播 到 每 一 台 Follower 节点 上 面 。 

每 个 客户 端 可 以 连接 集群 中 的 任何 一 个 ZooKeeper 节点 ， 同 时 从 连接 的 ZooKeeper 上 read fii 
息 ， 但 是 针对 write 操作 ，Follower 节点 不 会 处 理 而 是 转发 给 Leader, H Leader 负责 原子 广播 ， 从 
而 保证 集群 中 各 个 节点 的 数据 一 致 性 。ZooKeeper 规 定 只 有 当 多 于 一 半 的 节点 同步 完成 write 操作 ， 
整个 write 操作 才 算 完成 ， 也 就 是 说 可 能 会 有 少 于 一 半 的 ZooKeeper 节点 数据 不 是 最 新 的 数据 ， 因 
此 ZooKeeper 中 数据 的 一 致 性 不 是 强 一 致 性 而 是 最 终 一 致 性 , 但 是 客户 端 可 以 使 用 sync() 来 强制 读 
取 最 新 的 数据 。 





10.2.2 ZooKeeper 实现 分 布 式 Leader 节点 选举 


我 们 都 知道 ZooKeeper 的 节点 有 两 种 类 型 ， 分 别 是 持久 节点 和 临时 节点 。 临 时 节点 有 个 特性 ， 
就 是 如 果 注 册 这 个 节点 的 机 器 失去 连接 (通常 是 宕 机 ) ， 那 么 这 个 节点 会 被 ZooKeeper 删除 。 选 主 
过 程 就 是 利用 这 个 特性 , 在 服务 器 启动 的 时 候 , 去 ZooKeeper 特定 的 一 个 目录 下 注册 一 个 临时 节点 
(这 个 节点 作为 Master， 谁 注册 了 这 个 节点 谁 就 是 Master) 。 注 册 的 时 候 ， 如 果 发 现 该 节点 已 经 
存在 ， 则 说 明 已 经 有 别 的 服务 器 注册 了 (也 就 是 有 别 的 服务 器 已 经 抢 主 成 功 ) ， 那 么 当前 服务 器 只 
能 放弃 抢 主 ， 作 为 从 机 存在 。 同 时 ， 抢 主 失败 的 当前 服务 器 需要 订阅 该 临时 节点 的 删除 事件 ， 以 便 
该 节点 删除 时 〈 也 就 是 注册 该 节点 的 服务 器 宕 机 了 或 者 网 络 断 了 之 类 的 ) 进行 再 次 抢 主 操作 。 

选 主 的 过 程 其 实 就 是 简单 地 争 抢 在 ZooKeeper 注册 临时 节点 的 操作 ， 谁 注册 了 约定 的 临时 节 
点 , 谁 就 是 Master. 所 有 服务 器 同时 会 在 servers 节点 下 注册 一 个 临时 节点 (保存 自己 的 基本 信息 )， 
以 便于 应 用 程序 读 取 当 前 可 用 的 服务 器 列表 。 





10.2.3 ZooKeeper 配置 文件 重点 参数 详解 


ZooKeeper 的 zoo.cfg 配置 文件 参数 如 图 10-1 所 示 。 各 个 配置 项 说 明 如 下 。 


9810 “分 布 式 协调 服务 ZooKeeper | 113 





tickTime-2000 

initLimit-10 

syncLimit-5 
dataDir-/var/lib/zookeeper 
dataLogDir-/var/lib/zookeeper 
clientPort-2181 
maxClientCnxns-60 
minSessionTimeout-4000 
maxSessionTimeout-60000 
autopurge.purgeInterval-24 
autopurge.snapRetainCount-5 
quorum.auth.enableSasl-false 
quorum. cnxn.threads.size-20 
server.1-node0:3181:4181 
server.2-nodel:3181:4181 
server.3-node2:3181:4181 
leaderServes-yes| 





图 10-1 


tickTime: 客户 端 与 服务 器 或 者 服务 器 与 服务 器 之 间 维 持 心 跳 ， 以 毫秒 为 单位 。 也 就 是 作为 
ZooKeeper 服务 器 之 间或 客户 端 与 服务 器 之 间 维 持 心 跳 的 时 间 间 隔 ， 每 隔 tickTime 时 间 就 会 发 送 
一 个 心跳 .通过 心跳 不 仅 能 够 用 来 监听 机 器 的 工作 状态 , 还 可 以 通过 心跳 来 控制 Follower 跟 Leader 
的 通信 时 间 。 

initLimit: ”这 个 配置 项 是 用 来 配置 ZooKeeper 接受 客户 端 初 始 化 连接 时 最 长 能 忍受 多 少 个 心 
跳 时 间 间 隔 数 ， 当 已 经 超过 10 个 心跳 的 时 间 〈 也 就 是 tickTime) 长 度 后 ， ZooKeeper 服务 器 还 
没有 收 到 客户 端的 返回 信息 ,那么 表明 这 个 客户 端 连接 失败 。 总 的 时 间 长 度 就 是 10X2000=20 fh. 

syncLimit: 这 个 配置 项 标识 Leader 与 Follower 之 间 发 送 消息 ， 请 求 和 应 答 时 间 长 度 ， 最 长 
不 能 超过 多 少 个 tickTime 的 时 间 长 度 ， 总 的 时 间 长 度 就 是 5X2000=10 fh. 

dataDir: 存储 内 存 中 数据 库 快 照 的 位 置 ， 顾 名 思 义 就 是 ZooKeeper 保存 数据 的 目录 。 

dataLogDir: 事务 日 志 输出 目录 。 给 事务 日 志 的 输出 配置 独立 的 IOPS 高 的 磁盘 ， 这 将 极 大 地 
提升 ZooKeeper 性 能 。 

clientPort: 这 个 端口 就 是 客户 端 连接 ZooKeeper 服务 器 的 端口 ，ZooKeeper 会 监听 这 个 端口 ， 
接受 客户 端的 访问 请 求 。 

server.X-A:B:C: 其 中 XX 是 一 个 数字 ， 表 示 这 是 第 几 号 服务 器 。A 是 该 服务 器 所 在 的 IP 地 址 ; 
B 表示 的 是 该 服务 器 和 集群 中 的 Leader 服务 器 交换 消息 所 使 用 的 端口 ;C 表示 的 是 万 一 集群 中 的 
Leader 服务 器 挂 了 ， 需 要 一 个 端口 来 重新 进行 选举 ， 选 出 一 个 新 的 Leader. XX Hf] X 数字 与 myid 
文件 中 的 id 是 一 致 的 。 

maxClientCnxns: 单个 客户 端 与 单 台 服务 器 之 间 的 连接 数 的 限制 ， 默 认 是 60。 如 果 设 置 为 0， 
那么 表明 不 作 任何 限制 。 

minSessionTimeout 和 maxSessionTimeout: 一 般 客 户 端 连接 ZooKeeper 的 时 候 ， 都 会 设置 一 个 
session timeout， 如 果 超 过 这 个 时 间 Client 没有 与 ZooKeeper Server 联系 ， 那 么 这 个 session 被 设置 
为 过 期 (如 果 这 个 session 上 有 临时 节点 ， 就 会 被 全 部 删除 ) ， 但 是 这 个 时 间 客 户 端 不 可 以 无 限 设 
置 ， 只 能 通过 服务 器 设置 下 面 这 两 个 参数 来 限制 客户 端 设置 的 范围 。 
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autopurge.snapRetainCount 和 autopurge.purgeInterval: ZooKeeper 提供 了 自动 清理 snapshot 和 
事务 日 志 的 功能 , 通过 配置 autopurge.snapRetainCount 和 autopurge.purgeInterval 这 两 个 参数 能 够 
实现 定时 清理 了 。autopurge.purgeInterval 这 个 参数 指定 了 清理 频率 ， 单 位 是 小 时 ， 需 要 填写 一 个 1 
或 更 大 的 整数 ， 默 认 是 0， 表 示 不 开启 自己 清理 功能 。autopurge.snapRetainCount 这 个 参数 指定 了 
需要 保留 的 文件 数目 。 

leaderServes: 默认 情况 下 ，Leader 是 会 接受 客户 端 连接 ， 并 提供 正常 的 读 写 服务 。 但 是 ， 如 
果 你 想 让 Leader 专注 于 集群 中 机 器 的 协调 ， 那 么 可 以 将 这 个 参数 设置 为 no， 这样 一 来 ， 会 大 大 提 
高 写 操作 的 性 能 。 

ZooKeeper 配置 很 简单 ， 每 个 节点 的 配置 文件 zoo.cfg 都 是 一 样 的 ， 只 有 myid 文件 不 一 样 。 
myid 的 值 必须 是 zoo.cfg 中 server.{ 数 值 } 的 和 数值 》 部 分 ， 如 图 10-2 所 示 。 

[rootünodeO ~]# cat /var/lib/zookeeper/myid 


1 
rootünodeO -]& 








图 102 


如 果 使 用 Hadoop 商业 版 本 Cloudera CDH， 建 议 通过 图 形 界面 来 修改 配置 参数 ， 如 图 10-3 所 
示 。 在 Cloudera Manager 界面 上 更 改 配 置 是 不 会 立即 反映 到 配置 文件 中 的 , 这 些 信息 会 存储 于 数据 
库 中 ， 等 下 次 重启 服务 时 才 会 生成 配置 文件 。 
T =a 


< [e nodeO0:7180/cmf/ser 











CloUdera MANAGER Clusters - Hosts- Diagnostics = Audits — Charts« Administration + 


(3) ZooKeeper(cuseri) | Actions 


Status Instances Configuration Commands ChartsLibrary Audits Quick Links ~ 


Filters 
Y SCOPE 
ZooKeeper (Service-Wide) Tick Time ZooKeeper (Service-Wide) 
Si tickTime 2000 
Y CATEGORY A 
Synchronization Limit ZooKeeper (Service-Wide) 
Advanced syncLimit = 
Logs 
Main 
Monitoring Initialization Limit ZooKeeper (Service-Wide) 
nitLimit - 
Performance 10 
Ports and Addresses 
Resource Management Cleanup Retain Count ZooKeeper (Service-Wide) 


Security " 
5 
Stacks Collection 








图 10-3 
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10.3 ZooKeeper 典型 应 用 场景 


10.3.1 ZooKeeper 实现 HDFS 的 NameNode 高 可 用 HA 


HDFS HA 自动 切换 机 制 的 核心 对 象 是 ZKFC (FailoverController) 进程 ， 也 就 是 我 们 平常 在 
NameNode 节点 上 会 启动 的 ZKFC 进程 ， 用 来 监控 NameNode 的 状态 信息 。ZKFC 进程 仪 在 部 署 了 
NameNode 的 节点 中 存在 , Active NNCNN 是 NameNode 的 简称 ) 和 Standby NN 节点 都 有 部 署 ZKFC 
进程 。 

ZKFC 进程 的 作用 如 下 。 

(1) 健康 检测 :ZKFC 会 周期 性 地 向 它 监控 的 NameNode 发 送 健康 探测 命令 ， 从 而 鉴定 某 个 
NameNode 是 否 处 于 正常 工作 状态 。 如 果 机 器 宕 机 ， 心 跳 失 败 ， 那 么 ZKFC 就 会 标记 它 处 于 不 健康 
的 状态 。 

(2) 会 话 管理 ， 如果 NameNode 是 健康 的 ，ZKFC 会 保持 在 ZooKeeper 中 保持 一 个 打开 的 会 
话 ,如 果 NameNode 是 Active 状 态 的 ,那么 ZKFC 还 会 在 ZooKeeper 中 占有 一 个 类 型 为 临时 的 znode。 
当 这 个 NameNode 挂 掉 时 ,这 个 znode 将 会 被 删除 ， 然 后 备用 的 NameNode 得 到 这 把 锁 ， 升 级 为 主 
NameNode， 同 时 标记 状态 为 Active, 247: LÍ] NameNode 重新 启动 ， 它 会 再 次 注册 ZooKeeper， 
发 现 已 经 有 znode 了 ， 就 自动 变 为 standby 状态 ， 如 此 往复 循环 ， 保 证 高 可 靠 性 。 

(3) Master 选举 : 通过 在 ZooKeeper 中 维持 一 个 临时 类 型 的 znode 来 实现 抢占 式 的 锁 机 制 ， 
从 而 判断 哪个 NameNode 为 Active 状态 。 

HDFS NameNode 的 高 可 用 工作 原理 如 图 10-4 所 示 。 








Heartbeat 


red NN state with 
single writer 
(fenced) 


lock Reports to Active & Standby 
DN fencing: Update cmds from one 


[3€] J [y 
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在 上 图 中 ，NN 代表 的 是 NameNode, DN 代表 的 是 DataNode，ZK 代表 的 是 ZooKeeper， 我 们 
发 现 这 个 集群 当中 有 两 个 NameNode, 一 个 处 于 Active 状态 , 另 一 个 处 于 Standby 状态 , NameNode 
是 受 ZooKeeper 控制 的 ， 但 是 又 不 是 直接 受 ZooKeeper 控制 ， 有 一 个 中 间 件 FailoverController (也 
就 是 ZKFC 进程 )， 每 一 个 NameNode 所 在 的 机 器 都 有 一 个 ZKFC 进程 ，ZKFC 可 以 给 NameNode 
发 送 一 些 指令 ， 比 如 切换 指令 。 同 时 ZKFC 还 负责 实时 监控 NameNode， 不 断 把 NameNode 的 情况 
汇报 给 ZooKeeper， 一 旦 Active 状态 的 NameNode 发 生 宕 机 ，FailoverController 就 跟 NameNode Hk 
系 不 上 了 ， 联 系 不 上 之 后 ，FailoverController 就 会 把 Active 宕 机 的 信息 汇报 给 ZooKeeper， 另 一 个 
FailoverController {EM ZK 中 得 到 了 这 条 信息 ， 然 后 它 给 监控 的 NameNode 发 送 切 换 指令 ， 让 它 由 
Standby 状态 切换 为 Active 状态 。 

HDFS 中 的 DataNode (简称 DN) 既 可 以 跟 Active 的 NameNode 通信 ， 又 可 以 跟 Standby 的 
NameNode 通信 。 一 旦 原 有 Active NameNode 宕 机 ，DataNode 会 自动 向 新 的 Active NameNode 进 
行 通信 。Active NameNode 里 面 的 信息 与 Standby NameNode 里 面 的 信息 是 实时 同步 的 。 两 个 
NameNode 之 间 共 享 数 据 , 可 以 通过 Network File System 或 者 会 通过 一 组 称 作 JournalNodes 的 独立 
进程 进行 相互 通信 。 





10.3.2. ZooKeeper 实现 HBase 的 HMaster 高 可 用 


HBase 是 分 布 式 列 式 存储 数据 库 ，HBase 系统 架构 有 HRegionServer 和 HMaster 两 种 角色 ， 其 
中 HMaster 负责 管理 ，HRegionServer 负责 维护 分 配给 自己 的 数据 。HBase 通过 ZooKeeper 对 
HRegionServer 进行 管理 并 实现 HMaster 的 高 可 用 。 
在 HBase 中 ， 也 是 使 用 ZooKeeper 来 实现 动态 HMaster 的 选举 。 在 HBase 实现 中 ， 会 在 
ZooKeeper 上 存储 HBase 元 数据 和 HMaster 的 地 址 ，HRegionServer 也 会 把 自己 以 临时 节点 
(Ephemeral) 的 方式 注册 到 ZooKeeper 中 ， 使 得 HMaster 可 以 随时 感知 到 各 个 HRegionServer 的 
存活 状态 。HBase 也 可 以 部 署 Backup HMaster， 类 似 HDFS Standby NameNode， 当 HMaster 主 节 
点 出 现 故 障 时 , HMaster 备用 节点 会 通过 ZooKeeper 获取 主 HMaster 存储 的 整个 HBase 集群 状态 信 
息 ， 接 管 HMaster 主 节 点 的 工作 。 


10.3.3 ”ZooKkeeper 在 Storm 集群 中 的 协调 者 作用 


实时 计算 框架 Strom 的 集群 结构 是 有 一 个 主 节点 (Nimbus) 和 多 个 工作 节点 (Supervisor) 组 
成 的 主 从 结构 。Nimbus 与 Supervisor 都 是 Storm 提供 的 后 台 守 护 进程 ， 它 们 之 间 的 通信 是 结合 
ZooKeeper 的 状态 变更 通知 和 监控 通知 来 处 理 ， 如 图 10-5 所 示 。Nimbus 通过 ZooKeeper 记录 所 有 
Supervisor 节点 的 状态 和 分 配给 它们 的 task。 

ZooKeeper 作为 Storm 集群 各 个 节点 的 协调 者 ， 是 Nimbus 和 Supervisor 进行 交互 的 中 介 ， 任 
务 状态 和 心跳 信息 等 都 保存 在 ZooKeeper 上 。 
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Supervisor 


图 10-5 (图 中 Zookeeper EJ! ZooKeeper) 
概括 来 说 ，ZooKeeper 有 两 个 作用 : 


(1) Nimbus 通过 在 ZooKeeper 上 写 状 态 信息 来 分 配 任务 。 通 俗 地 讲 就 是 Nimbus 负责 将 任务 
分 配 信息 写 入 ZooKeeper，Supervisor 从 ZooKeeper 上 读 取 任务 分 配 信息 ; 

(2) Supervisor, Task 会 发 送 心跳 到 ZooKeeper， 使 得 Nimbus 可 以 监控 整个 集群 的 状态 ， 从 
而 重启 一 些 挂 掉 的 worker 工作 进程 。 





第 11 章 
准 实时 分 析 系 统 Impala 


Impala 是 Cloudera 公司 主导 开发 的 新 型 查询 系统 ， 它 提供 SQL 语义 ， 能 够 为 存储 在 Hadoop 
的 HDFS 和 HBase 中 的 PB 级 大 数据 提供 快速 、 交 互 式 的 SQL 查询 。 已 有 的 Hive 数据 仓库 工具 由 
于 底层 执行 使 用 的 是 MapReduce 引擎 ， 仍 然 是 一 个 批 处 理 过 程 ， 难 以 满足 要 求 响应 快速 的 交互 式 
查询 。 而 Impala 是 基于 MPP 的 查询 系统 ， 它 的 最 大 特点 就 是 快速 。 


11.4 Impala 概述 


Impala 是 Cloudera 公司 受到 Google 的 Dremel 启发 开发 出 来 的 实时 交互 式 SQL 查询 引擎 ， 它 
在 功能 上 类 似 Hive, 但 是 Hive 在 查询 的 时 候 采 用 MapReduce 执行 框架 ， 而 Impala 用 C++ 编写 ， 
内 部 计算 模式 是 通过 使 用 与 商用 并 行 数 据 库 MPP 中 类 似 的 分 布 式 查询 引擎 ,不 再 依赖 MapReduce。 
在 对 大 数据 量 查询 时 ，Impala 会 比 Hive 更 能 快速 地 响应 返回 结果 。Impala 现在 是 Apache 的 顶级 
WH, 官网 为 http://impala.apache.org/。 虽然 Impala 是 参照 Dremel 来 实现 的 , 但 它 也 有 一 些 自己 的 
特色 ，Impala 是 开源 的 ， 再 加 上 Cloudera 在 Hadoop 领域 的 领导 地 位 ， 其 生态 圈 有 很 大 可 能 会 在 将 
来 快速 成 长 ， 性 能 上 比 Hive 高 出 3~30 倍 ， 在 将 来 的 某 一 天 可 能 会 完全 替代 Hives 

使 用 Impala 来 实现 对 海量 数据 的 实时 查询 分 析 ， 它 的 优势 有 : 可 以 方便 地 执行 SQL 语句 ,在 
数秒 内 返回 查询 分 析 结 果 ; 可 以 直接 查询 存储 在 HDFS 上 的 原生 数据 :可 以 非常 容易 地 与 Hadoop 
系统 整合 ， 并 使 用 Hadoop 生态 系统 的 资源 和 优势 。 

就 目前 而 言 ，Hive 通常 用 于 批 处 理 ， 而 Impala 是 理想 的 交互 式 查 询 和 数据 分 析 工 具 。 
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11.2 Impala 组 件 构成 


Impala 的 组 件 构 成 如 图 11-1 所 示 。 






Hive 
Metastore 
Impala Shell 


ome oeuse moa 


图 11-1 


它 的 主要 组 件 说 明 如 下 。 

(1) Clients: Hue、ODBC Client, JDBC Client 和 Impala shell 都 可 以 与 Impala 进行 交互 ， 这 
些 接口 都 可 以 用 在 Impala 的 数据 查询 以 及 对 Impala 的 管理 上 。 

(2) Hive Metastore: 存储 Impala 可 访问 数据 的 元 数据 。 例 如 ， 这 些 元 数据 可 以 让 Impala 知 
道 哪些 数据 库 以 及 数据 库 的 结构 是 可 以 访问 的 ， 当 你 创建 、 删 除 、 修 改 数据 库 对 象 或 者 加 载 数据 到 
数据 表 里 面 ， 相 关 的 元 数据 变化 会 自动 通过 广播 的 形式 通知 所 有 的 Impala 节点 ， 这 个 通知 过 程 由 
Catalog Service 完成 。 

(3) Cloudera Impala: Impala 的 进程 运行 在 各 个 数据 节点 (Datanode) 上 面 。 每 一 个 Impala 
的 实例 都 可 以 从 Impala client 端 接收 查询 ， 进 而 产生 执行 计划 、 协 调 执行 任务 。 数 据 查 询 分 布 在 各 
个 Impala 节点 上 ， 这 些 节 点 并 行 执行 查询 。 


11.3 Impala 系统 架构 


Impala 的 系统 架构 设计 如 图 11-2 所 示 (颜色 请 参看 下 载 包 中 的 相关 文件 ) 。 黄色 部 分 是 Imapla 
模块 ， 蓝 色 部 分 为 运行 Impala 依赖 的 其 他 模块 。Imapla 整体 分 为 两 部 分 StateStore 和 Impalad。 
StateStore 是 Impala 的 一 个 子 服务 ， 用 来 监控 集群 中 各 个 节点 的 健康 状况 ， 提 供 节点 注册 ， 错 误 检 
测 等 功能 。Impala Daemon 进程 是 运行 在 集群 每 个 节点 上 的 守护 进程 ， 每 个 节点 上 这 个 进程 名 称 为 
Impalad。Impalad 运行 在 DataNode 节点 上 ， 主 要 有 两 个 作用 : 一 是 协调 Client 提交 的 Query 的 执 
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行 ， 给 其 他 Impalad 分 配 任务 ， 收 集 其 他 Impalad 的 执行 结果 进行 汇总 ， 二 是 这 个 Impalad 也 会 执 
行 其 他 Impalad 给 其 分 配 的 任务 , 执行 这 部 分 任务 主要 就 是 对 本 地 HDFS 和 HBase 里 的 部 分 数据 进 
行 操 作 。 

Common Hive SQLand interface Unified metadata 





图 11-2 


Impala 中 表 的 元 数据 存储 借用 的 是 Hive 的 ， 也 就 是 表 的 元 数据 信息 存储 在 Hive 的 Metastore 
中 。 位 于 HDFS 数据 节点 DataNode 上 的 每 个 Impalad 进程 ,都 具有 Query Planner, Query Coordinator, 
Query Exec Engine 这 几 个 模块 。QueryPalnner 接收 来 自 SQL APP 和 ODBC 的 SQL 语句 解释 成 为 
执行 计划 。Query Coordinator 将 执行 计划 进行 优化 和 拆 分 ， 形 成 执行 计划 片段 ， 调 度 这 些 片 段 分 发 
到 各 个 节点 上 ， 由 各 个 节点 上 的 Query Exec Engine 负责 执行 ， 最 后 返回 中 间 结 果 ， 这 些 中 间 结 果 
经 过 聚集 之 后 最 终 返 回 给 用 户 。 


11.4 Impala 的 查询 处 理 流程 


Impala 查询 处 理 流程 如 图 11-3 所 示 。 

这 里 有 三 类 客户 端 可 以 与 Inpala 进行 交互 : 

° 基于 驱动 程序 的 客户 端 (ODBC Driver 和 JDBC Driver) . 

* Hue 接 口 ， 可 以 通过 Hue Beeswax 接口 来 与 Impala 进行 交互 。 

* Impala shell 命令 行 接口 ， 类 似 关系 数据 库 提供 一 些 命令 行 即 可 ， 可 以 直接 使 用 SQL 语句 与 
Impala 交互 。 


Impala 使 用 Hive Metastore 来 存储 一 些 元 数据 ， 为 Impala 所 使 用 ,通过 存储 的 元 数据 ，Impala 
可 以 更 好 地 知道 整个 集群 中 数据 以 及 节点 的 状态 ， 从 而 实现 集群 并 行 计算 ， 对 外 部 提供 查询 服务 。 
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Impala 会 在 HDFS 集群 的 DataNode 上 启动 进程 ， 协 调 位 于 集群 上 的 多 个 Impala 进程 〈 即 
Impalad) ， 以 及 执行 查询 。 在 Impala 架构 中 , 每 个 Impala 节点 都 可 以 接收 来 自 客户 端的 查询 请 求 ， 
然后 负责 解析 查询 ， 生 成 查询 计划 ， 并 进行 优化 ， 协 调查 询 请 求 在 其 他 的 多 个 Impala 节点 上 并 行 
执行 ， 最 后 由 负责 接收 查询 请 求 的 Impala 节点 来 汇总 结果 ， 响 应 客户 端 。 

HBase 和 HDFS 存储 着 实际 需要 查询 的 大 数据 。 这 里 每 个 Impala 节点 都 能 接收 外 部 查询 请 求 。 
当 有 一 个 节点 发 生 故 障 后 ， 其 他 节点 仍然 能 够 接管 。 用 户 可 以 重新 提交 查询 由 其 他 Impalad 代替 执 
行 , 不 会 影响 服务 。 这 是 因为 HDFS 上 数据 的 副本 是 元 余 的 。 某 些 挂 掉 的 Impalad 进程 所 在 节点 的 
数据 在 整个 HDFS 中 只 要 还 存在 副本 ， 还 是 可 以 提供 计算 的 。 


— EHE ` a 
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图 113 


11.5 Impala fil Hive 的 关系 和 对 比 


Impala 与 Hive 在 Hadoop 中 的 关系 如 图 11-4 所 示 。Hive 适合 于 长 时 间 的 批 处 理 查询 分 析 ， 而 
Impala 适合 于 实时 交互 式 SQL 查询 。Impala 和 Hive 都 支持 把 数据 存储 于 HDFS、HBase。Impala 
直接 使 用 Hive 的 元 数据 库 Metadata， 意 味 着 Impala 元 数据 都 存储 在 Hive 的 Metastore。 两 者 都 是 
为 了 方便 数据 分 析 人 员 运 用 已 掌握 的 SQL 知识 进行 数据 的 分 析 ， 不 需要 软件 开发 经 验 。Impala 可 
以 与 Hive 配合 使 用 ， 比 如 可 以 先 使 用 Hive 进行 数据 转换 处 理 ， 然 后 使 用 Impala 在 Hive 处 理 后 的 
结果 数据 集 上 进行 快速 的 数据 分 析 。 

从 原理 机 制 角度 来 看 ，Hive 与 Impala 不 同 在 于 ，Hive 本 身 并 不 执行 任务 的 分 析 过 程 ， 而 是 
依赖 于 MapReduce 执行 框架 。 而 Impala 没有 使 用 MapReduce 进行 并 行 计算 , Impala 把 整个 查询 分 
析 成 一 个 执行 计划 树 , 而 不 是 一 连 串 的 MapReduce 任务 ， 它 使 用 与 商用 并 行 关系 数据 库 MPP 中 类 
似 的 查询 机 制 。 
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图 114 








从 技术 角度 来 看 ，Impala 速度 快 于 Hive, 原因 在 于 Impala 不 需要 把 中 间 结 果 写 入 磁极， 省 掉 
了 大 量 的 UO 开销; Imapla 省 掉 了 MapReduce 作业 启动 的 开销 ， 众 所 周知 ，MapReduce 启动 task 
的 速度 很 慢 ，Impala 直接 通过 相应 的 服务 进程 来 进行 作业 调度 ， 速 度 快 了 很 多 。 

在 不 久 的 未 来 , Impala 很 可 能 会 取代 Hive 的 应 用 。 当 然 现 阶段 中 用 户 从 Hive 上 迁移 到 Impala 
上 来 是 需要 时 间 的 ，Impala 实现 Hive 的 SQL 语义 的 子 集 ， 功 能 还 在 不 断 完善 中 。Hive 提供 了 很 
多 内 部 函数 ， 并 且 对 UDF 〈 用 户 自 定义 函数 ) 支持 得 很 好 。 所 以 目前 来 看 ，Impala 并 不 是 用 来 取 
代 已 有 的 MapReduce 系统 ， 而 是 作为 MapReduce 的 一 个 强力 补充 。 总 的 来 说 ，Impala 适合 用 来 处 
理 输出 数据 适中 或 比较 小 的 且 对 响应 时 间 有 要 求 的 查询 ， 而 对 于 大 数据 量 的 批 处 理 任务 ， 
MapReduce 依然 是 更 好 的 选择 。 





11.6 Impala 安装 


在 Cloudera Manager 管理 界面 点 击 “ 添 加 服务 ”, 选择 要 添加 的 服务 类 型 为 Impala， 如 图 11-5 
所 示 。 
定义 Impala 角色 分 配 ,我 们 将 Catalog 服务 (作用 是 将 Impala 表 的 Metadata 分 发 到 各 个 Impalad 
H) 和 StateStore〈 和 负载 收集 分 布 在 集群 中 各 个 Imapalad 进程 资源 信息 ， 各 节点 健康 状况 等 ) 部 署 
在 主 节 点 node0 上 ， 将 Imapala Daemon. 〈 它 是 运行 在 集群 每 个 节点 上 的 守护 进程 ， 在 每 个 节点 上 
这 个 进程 的 名 称 为 Impalad) 节点 部 署 在 从 节点 上 ， 如 图 11-6 所 示 。 
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服务 类 型 


O B Accumulo 


O 6 Flume 
O H HBase 


8 Hors 


O & Hive 


O e Hue 





(S) Y Impala 


选择 您 要 添加 的 服务 类 型 。 


说 明 


The Apache Accumulo sorted, distributed key/value store is a robust, scalable, high performance data storage and retrieval system. 
only works with releases based on Apache Accumulo 1.6 or later. 


Flume JA JU BU KRURI HHR PPR SSK AUMETRAE (如 HDFS) F. 
Apache HBase 提供 对 大 型 数据 集 的 随机 、 实 时 的 读 / 写 访问 权限 (需要 HDFS 和 ZooKeeper) . 


Apache Hadoop 分 布 式 文件 系统 (HDFS) 是 Hadoop 应 用 程序 使 用 的 主要 存储 系统 。HDFS 创建 多 个 数据 块 副 本 并 将 它们 分 布 在 整 
主机 上 ， 以 启用 可 靠 且 极其 快速 的 计算 功能 。 


Hive 是 一 种 数据 仓库 系统 ,提供 名 为 HiveQL 的 SQL 类 语言 。 
Hue 是 与 包括 Apache Hadoop 的 Cloudera Distribution 配合 使 用 的 图 形 用 户 界面 (需要 HDFS、MapReduce 和 Hive), 


Impala 为 存储 在 HDFS 和 HBase 中 的 数据 提供 了 一 个 实时 SQL 查询 接口 。Impala 需要 Hive 服务 ， 并 与 Hue 共享 Hive Metastore, 


图 11-5 





将 Impala 服务 添加 到 Cluster 1 
自 定义 Impala 的 角色 分 配 
您 可 以 在 此 处 自 定义 新 服务 的 角色 分 配 , 但 请 注意 ， 如 果 分 配 不 正确 (例如 ,分配 到 某 个 主机 上 的 角色 太 多 ) ， 性 能 受到 影响 


还 可 以 按 主机 查看 角色 分 配 


Impala Catalog Server x 1 新 奸 WEB impala StateStore x 1 新建 E impala Daemon x 2 新 奸 


nodeü 


node0 node[0-1] > 





图 11-6 


点 击 “ 继 续 ”， 完 成 Impala 的 安装 。 回 到 Cloudera Manager 管理 界面 首页 ， 启 动 Impala 服务 ， 


如 图 11-7 所 示 。 


Cluster 1 


至 主机 
© Flume 
H HBase 


@ HpFs 


qe Hive 
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11.7 Impala 入门 实战 操作 


首先 , RIERA Impalad 服务 的 节点 上 执行 impala-shell， 便 可 进入 命令 行 ,如 图 11-8 所 示 。 


[ hdfs@node0 ~]$ impala-shell 

Starting Impala Shell without Kerberos authentication 
Connected to node0: 21000 

Server version: impalad version 2.8.0-cdh5.11.2 RELEASE (build f89269c4b96dai4a8 
|41e84bdf6d4d48821b0d658) 
DOCOIOOOECIEODIOOIOOCECIOIDIOIOIOCCECICIDIOIOOOECECECICIOIOOOIOICEOIOOEOCEEGICECIOOOCEGIDOIOOOCEEDCIOOOOOGGOOOOOE E GGG 
ex 

Welcome to the Impala shell 

(Impala Shell v2.8.0-cdhs. 11.2 (f89269c) built on Fri Aug 18 14:04:44 PDT 2017) 





Every command must be terminated by a ';'. 
YYAY21121411X111111114311113311411314114151111153111511151115142111473111413411541 4152353453 3341330953] 








图 11-8 


执行 show databases 命令 可 以 看 到 hivedemo 数据 库 ， 如 图 11-9 所 示 ，hivedemo 是 我 们 在 此 前 
介绍 Hive 章节 中 通过 Hive shell 命令 行 创建 的 数据 库 。 


[ node0: 21000] > show databases; 
Query: show databases 


.impala builtins | System database for Impala builtin functions | 
default Default Hive database 
hivedemo 





图 11-9 
执行 show tables 命令 ， 结 果 如 图 11-10 所 示 。 


node0: 21000] > use hivedemo; 
use hivedemo 


bucket_ tabtel 


bucket table2 
docs 

invites 
result 
student 

word count 


Fetched 7 row(s) in 0.03s 
node0: 21000] > 


图 11-10 
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Impala 执行 select count(*) from student 语句 明显 非常 快 ， 而 Hive 执行 同样 语句 ， 本 质 上 是 启 
动 MapReduce 任务 ， 明 显 慢 了 很 多 ， 如 图 11-11、 图 11-12 所 示 。 


[node0:21000] > select count(*) from student; 

Query: select count(*) from student 

Query submitted at: 2018-09-07 17:53:56 (Coordinator: http: //node0: 25000) 
Query progress can be monitored at: http: //node0: 25000/query plan?query id-7948c 
C73245726Ce: 222e081500000000 










censes * 
| count(*) | 
bzsesreercme * 
| 6 | 
PTUS E * 


Fetched 1 row(s) in 0.21s 
[ node0: 21000] > 





图 11-11 





hive» select count(*) from student; 
Query ID = hdfs 20180907175656 927093f1-5b72-45ab-b055- 730c66e8541a 
Total jobs = 1 
Launching Job 1 out of 1 
Number of reduce tasks determined at compile time: 1 
In order to change the average load for a reducer (in bytes): 
set hive, exec. reducers. bytes. per. reducer-«number? 
In order to limit the maximum number of reducers: 
set hive. exec. reducers. max=<number> 
In order to set a constant number of reducers: 
set mapreduce. job. reduces-«number? 
Starting Job = job 1536287615696 0001, Tracking URL = http: //node0: 8088/proxy/ap 
plication 1536287615696 0001/ 
Kill Command = /opt/cloudera/parcels/CDH-5. 11. 2-1. cdh5. 11. 2. p0. 4/lib/hadoop/bin/ 
hadoop job -kill job 1536287615696 0001 
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1 
2018-09-07 17:56:37,716 Stage-1 map = 0%, reduce = 0% 
2018-09-07 17:56:59,157 Stage-1 map = 100%, reduce = 0X, Cumulative CPU 3.7 sec 
2018-09-07 17:57:12,073 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 5.57 
sec 
MapReduce Total cumulative CPU time: 5 seconds 570 msec 
Ended Job - job 1536287615696 0001 
MapReduce Jobs Launched: 
Stage-Stage-1: Map: 1 Reduce: 1 Cumulative CPU: 5,57 sec HDFS Read: 7038 HD 
FS Write: 2 SUCCESS 
Total MapReduce CPU Time Spent: 5 seconds 570 msec 
OK 
6 
Time taken: 55.578 seconds, Fetched: 1 row(s) 
hive» 








图 11-12 


还 可 以 执行 create table student. copy as select * from student 命令 ， 直 接 将 查询 出 来 的 数据 导入 
到 一 张 新 表 student copy 中 ， 如 图 11-13 所 示 。 
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[ node0: 21000] > create table student copy as select * from student; 

Query: create table student copy as select * from student 

Query submitted at: 2018-09-07 17:59:59 (Coordinator: http: //node0: 25000) 

Query progress can be monitored at: http: //node0: 25000/query plan?query id-4a4a4 
MO cOab1582b: 24d8 f38 c00000000 


+------------------- 十 
| summary | 
+------------------- 十 
| Inserted 6 row(s) | 
LEE E ERE aed * 


Fetched 1 row(s) in 1.84s 
[ node0: 21000] > 








图 11-13 


在 Hive shell 中 show tables 是 可 以 看 到 在 Impala shell 中 创建 的 student copy 这 张 表 的 。 我 们 
1E Hive shell 中 执行 类 似 的 语句 ， 将 查询 出 来 的 数据 插入 到 新 表 student copy2, Hive 同样 是 启动 
MapReduce 任务 ， 如 图 11-14 所 示 。 


hive» create table student copy2 as select * from student; 

Query ID = hdfs 20180907180000 2a8d60f1-569e-4093-bb9a-6fd1296992be 

Total jobs = 3 

Launching Job 1 out of 3 

Number of reduce tasks is set to O since there's no reduce operator 

Starting Job = job 1536287615696 0002, Tracking URL = http: //node0: 8088/proxy/appl 
Kill Command = /opt/cloudera/parcels/CDH-5. 11. 2-1. cdh5, 11. 2. pO. 4/lib/hadoop/bin/ha 
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0 
2018-09-07 18:01:01,638 Stage-1 map = 0%, reduce = 0% 

2018-09-07 18:01:13,924 Stage-1 map = 1005, reduce = 0X, Cumulative CPU 2.31 sec 
MapReduce Total cumulative CPU time: 2 seconds 310 msec 

Ended Job - job 1536287615696 0002 

Stage-4 is selected by condition resolver. 

Stage-3 is filtered out by condition resolver. 

Stage-5 is filtered out by condition resolver. 

Moving data to: hdfs://node0:8020/user/hive/warehouse/hivedemo. db/. hive- staging hi 
Moving data to: hdfs://node0: 8020/user/hive/warehouse/hivedemo. db/student copy2 
Table hivedemo. student copy2 stats: [numFiles-1, numRows-6, totalSize-65, rawDataS 
MapReduce Jobs Launched: 

Stage-Stage-1: Map: 1 Cumulative CPU: 2.31 sec HDFS Read: 3219 HDFS Write: 143 
Total MapReduce CPU Time Spent: 2 seconds 310 msec 

OK 

Time taken: 33.162 seconds 











图 11-14 


这 时 你 在 Impala shell 中 只 需 执行 INVALIDATE METADATA， 即 可 将 Hive 的 元 数据 同步 到 
Impala， 如 图 11-15 所 示 。 
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[ node0: 21000] > INVALIDATE METADATA; 

Query: invalidate METADATA 

Query submitted at: 2018-09-07 18:04:31 (Coordinator: http: //node0: 25000) 

Query progress can be monitored at: http: //node0: 25000/query plan?query id-95428| 
52f92875b20: ada94d9100000000 


Fetched 0 row(s) in 4.57s 
node0: 21000] > show tables; 
Query: show tables 


bucket tablei 
bucket table2 
docs l 
invites 
result 
student 
student_copy 
student_copy2 
word_count 








Fetched 9 row(s) in 0.01s 
图 11-15 


以 上 是 Impala 的 一 些 基 本 的 命令 ,可 以 看 到 Impala 使 用 SQL 作为 查询 语言 ,保持 了 与 HiveQL 
高 度 兼 容 性 。Impala 抛弃 了 MapReduce， 使 用 更 类 似 于 传统 的 MPP 数据 库 技 术 ， 大 大 提高 了 查询 
的 速度 。 





Flume 是 分 布 式 日 志 采 集 系统 ,由 Cloudera 大 数据 公司 开发 出 来 ,并 在 2009 年 贡献 给 Apache 
基金 会 ， 成 为 Hadoop 生态 系统 的 组 件 之 一 。 特 别 是 这 几 年 随 着 Flume 不 断 改进 和 完善 ， 用 户 在 开 
发 过 程 中 的 使 用 变 得 很 方便 ， 如 今 Flume 已 成 为 Apache 顶级 项 目 之 一 





12.1 Flume 概述 


Flume 是 Cloudera 提供 的 一 个 分 布 式 、 高 可 用 、 高 可 靠 的 海量 日 志 采 集 、 聚 合 和 传输 的 系统 ， 
支持 在 日 志 系统 中 定制 各 类 数据 发 送 方 , 用 于 收集 数据 , 同时 提供 了 对 数据 进行 简单 处 理 并 写 到 各 
种 数据 接收 方 的 能 力 。 

Flume 的 结构 如 图 12-1 所 示 。 它 的 设计 原理 是 基于 数据 流 的 ， 能 够 将 不 同 数据 源 的 海量 日 志 
数据 进行 高 效 收集 、 聚 合 、 移 动 ， 最 后 存储 到 一 个 中 心 化 数据 存储 系统 中 。Flume 能 够 做 到 实时 推 
送 事件 ， 并 且 可 以 满足 数据 量 是 持续 且 量 级 很 大 的 情况 。 比 如 它 可 以 收集 社交 网 站 日 志 ， 并 将 这 些 
数量 庞大 的 日 志 数据 从 网 站 服务 器 上 汇集 起 来 ， 存 储 到 HDFS 或 HBase 分 布 式 数据 库 中 。 

Flume 的 应 用 场景 : 比如 你 想 做 一 个 类 似 淘宝 的 电 商 网 站 , 想 从 网 站 访问 者 中 访问 一 些 特定 的 
节点 区 域 来 分 析 消 费 者 的 购物 意图 和 行为 。 为 了 实现 这 一 点 , 需要 收集 到 消费 者 访问 的 页 面 以 及 点 
击 的 产品 等 日 志 信息 ， 并 移交 到 大 数据 Hadoop 平台 上 去 分 析 ， 可 以 利用 Flume 做 到 这 一 点 。 现 在 
流行 的 内 容 推送 ， 比 如 广告 定点 投放 以 及 新 闻 私 人 定制 也 是 基于 这 个 道理 ， 当 然 不 一 定 是 使 用 
Flume， 比 如 淘宝 TimeTunnel T.H. CTimeTunnel 在 阿里 巴巴 广泛 地 应 用 于 日 志 采 集 ) 。 
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122 Flume 体系 结构 


12.2.1 Flume 外 部 结构 


Flume 的 外 部 结构 如 图 12-2 所 示 , 数据 发 生 器 (Data Generator, 如 Facebook 社交 网 站 、Twitter 
微 博 ) 产生 的 数据 被 单个 运行 在 数据 发 生 器 所 在 服务 器 上 的 Agent 所 收集 , 之 后 数据 收集 器 (Data 
Collector) 从 各 个 Agent 上 汇集 数据 ， 并 将 采集 到 的 数据 存 入 到 HBase 分 布 式 数据 或 HDFS 分 布 式 
文件 系统 中 。 






Centralized 
Stores 





Data Collector 












Data Generators 
w Z 









Fiume 
图 122 
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12.2.2 Flume 的 Event 事件 概念 





事件 是 Flume 内 部 数据 传输 的 最 基本 单元 ， 将 传输 的 数据 进行 封装 。 事 件 本 身 是 由 一 个 载 有 
数据 的 字 节 数组 和 可 选 的 headers 头 部 信息 构成 的 ， 如 图 12-3 所 示 。Flume 以 事件 的 形式 将 数据 从 
源头 传送 到 最 终 的 目的 地 。 





Header Byte Payload 





Flume event 


图 12-3 


12.2.3 Flume 的 Agent 


Flume 内 部 有 一 个 或 者 多 个 Agent。 对 于 一 个 Agent 来 说 ，Flume 就 是 一 个 独立 的 守护 进程 ， 
把 数据 从 数据 源 Source 收集 过 来 ， 再 将 收集 到 的 数据 快速 地 传 给 下 一 个 目的 节点 Sink。 将 数据 发 
送 到 Sink 之 前 ，Flume 会 先 将 数据 缓存 到 Channel， 待 数据 真正 到 达 Sink 后 ， 再 删除 自己 缓存 的 
数据 ， 如 图 12-4 所 示 。 





图 124 


可 以 看 出 ，Agent 主要 由 Source、Channel、Sink 三 个 组 件 组 成 。 


* Source: 从 数据 发 生 器 接收 数据 ， 并 将 接收 的 数据 以 Flume 的 Event 格式 传递 给 一 个 或 者 多 
个 通道 ( Channel) . 

* Channel: 一 种 短暂 的 存储 容器 ， 位 于 Source 和 Sink 之 间 ， 起 着 桥梁 的 作用 。Channel 将 从 
Source 处 接收 到 的 Event 格式 的 数据 缓存 起 来 ， 当 Sink 成 功 地 将 Events 发 送 到 下 一 跳 的 
Channel 或 最 终 目 的 地 后 ，Events 从 Channel 移 除 。Channel 是 一 个 完整 的 事务 ， 这 一 点 保证 
了 数据 在 收发 的 时 候 的 一 致 性 。 可 以 把 Channel 看 成 一 个 队列 ， 优 点 是 FIFO (先进 先 出 ) ， 
Event 保存 到 队列 中 ,再 从 队列 尾部 一 个 个 出 来 。Flume 着 重 于 数据 的 传输 ， 几 乎 没有 数据 的 
解析 预 处 理 , 仅仅 是 数据 的 产生 , 封装 成 Event 后 传输 。 数 据 只 有 存储 在 下 一 个 存储 位 置 ( 可 





第 12 章 日 志 采 集 工 具 Flume | 131 


能 是 最 终 的 存储 位 置 ， 如 HDFS; 也 可 能 是 


能 是 下 一 个 Flume 节点 的 Channel) ， 才 会 从 当前 的 
Channel 中 删除 。 


Sink: 负责 将 Events 传输 到 下 一 跳 或 者 最 终 目的 地 ， 从 Channels 消费 数据 Events 并 将 其 传 
递 给 目的 地 。 目 的 地 可 能 是 另 一 个 Sink， 也 可 能 是 集中 存储 器 HDFS 或 HBase 等 。 


能 是 
Source, Channel, Sink 的 组 合 形式 如 图 12-5 所 示 。 
过 程 简要 说 明 如 下 : 


(1) 外 部 数据 源 (Web Server) 将 Flume 可 识别 的 Event 发 送 到 Source, 
(2) Source 源 收 到 Event 事件 后 存储 到 一 个 或 多 个 Channel 通道 中 。 
(3) Channel 保留 Event 直到 Sink 将 其 处 理 完 毕 。 


(4) Sink 从 Channel 中 取出 数据 ， 并 将 其 传输 至 外 部 存储 CHDFS) 。 





图 12-5 


Flume 使 用 事务 的 办 法 来 保证 Event 的 可 靠 传 递 。Source 和 Sink 分 别 被 封装 在 事务 中 ， 由 保 
存 Event 的 存储 提供 或 者 由 Channel 提供 。 这 就 保证 了 Event 在 数据 流 的 点 对 点 传输 中 是 可 靠 的 。 
从 结构 图 上 可 以 看 出 , Flume 日 志 采 集 工具 是 一 个 集群 式 的 部 署 方式 , 所 以 要 按照 主机 所 担当 


的 角色 来 选择 。 在 Flume 日 志 采 集 系统 的 系统 架构 中 , 共有 三 种 主机 角色 : HERR Source) 、 
渠道 /缓冲 区 (Channel) 和 目标 主机 (Sink〉。 


12.3 Flume 安装 和 集成 


12.3.1 搭建 Flume 环境 


只 需要 在 Cloudera Manager 的 CDH 添加 对 应 的 Flume 服务 , 就 可 以 在 平台 使 用 Flume 的 所 有 
命令 和 脚本 。 添 加 服务 向 导 ， 如 图 12-6 所 示 。 
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添加 服务 向 导 
选择 您 要 添加 的 服务 类 型 。 


服务 类 型 说 明 
($ € Flume Flume 从 几乎 所 有 来 源 收集 数据 并 将 这 些 数据 聚合 到 永久 性 存储 ( 如 HDFS ) 中 。 





图 12-6 


12.3.2 Kafka 5 Flume 集成 





Kafka 生产 的 数据 是 由 Flume 的 Sink 提供 的 。 这 里 需要 用 到 Flume 集群 ， 通 过 Flume 集群 将 
Agent 的 日 志 采 集 分 发 到 Kafka〔 供 实时 计算 处 理 ) 和 HDFS 离线 计算 处 理 ) ， 如 图 12-7 所 示 。 

通过 Flume 的 Agent 代理 收集 日 志 ， 然 后 汇总 到 Flume 集群 ， 再 由 Flume 的 Sink 将 日 志 输 送 
到 Kafka 集群 ， 完 成 数据 的 生产 流程 。 


Kafka Producer 
| i 
| | 
i | Flume 一 喜 Kafka | i 
i Cluster Cluster i 
| i 
j 














12.4 Flume 操作 实例 介绍 


12.4. 例子 概述 


用 Flume 读 取 指定 目录 下 面 的 log 文件 数据 ， 发 送 给 Kafka 消息 队列 ， 再 进行 消费 数据 ， 最 后 
在 命令 窗口 把 信息 打印 出 来 。 


12.4.2 ”第 一 步 : 配置 数据 流 应 


当 我 们 将 Flume 和 Kafka 都 部 署 完 成 后 ， 需 要 继续 配置 Flume 的 Sink 数据 流向 。 进 入 
/opt/cloudera/parcels/CDH/etc/flume-ng/conf.empty 目录 ， 编 辑 一 个 名 称 叫 kafka.properties 的 文件 。 
kafka.properties 内 容 如 下 : 








| agent.sources = sl 
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agent.channels = cl 

agent.sinks = kl 

agent.sources.sl.type-exec 

agent.sources.sl.command-tail -F /tmp/logs/kafka.log 
agent.sources.sl.channels-cl 

agent.channels.cl.type-memory 
agent.channels.cl.capacity-10000 
agent.channels.cl.transactionCapacity-100 

TUE Kafka 接收 器 

agent.sinks.kl.type = org.apache.flume.sink.kafka.KafkaSink 
TH Kafka 的 broker 地 址 和 端口 号 
agent.sinks.kl.brokerList-hadoop:9092 

dE Kafka 的 Topic 

agent.sinks.kl.topic-kafkatest 

# 设 置 序列 化 方式 
agent.sinks.kl.serializer.class-kafka.serializer.StringEncoder 
agent.sinks.kl.channel-cl 


很 明显 ， 由 配置 文件 可 以 了 解 到 : 
(1) 需要 在 /tmp/logs 下 建 一 个 kafka.log 文件 ， 且 向 文件 中 输出 内 容 。 
(2) Flume 连接 到 Kafka 的 地 址 是 localhost:9092， 注 意 不 要 配置 出 错 。 
G) Flume 会 将 采集 后 的 内 容 输出 到 Kafka topic kafkatest。 启 动 ZK, 2 Ji Kafka 会 打开 一 个 
终端 消费 topic kafkatest 的 内 容 。 这 样 就 可 以 看 到 Flume 与 Kafka 之 间 的 通信 。 











12.4.3 $25: 启动 服务 


按 顺序 启动 ZooKeeper、Kafka、Flume, 如 图 12-8 所 示 。 注 意 ,启动 Flume 之 前 ,要 确保 ZooKeeper 
和 Kafka 先 启动 成 功 。 


O ü ZooKeeper 





O Ë Kafka | 
O Ø Flume Es 


图 12-8 





124.4 第 三 步 : 新 建 空 数据 文件 


# 编 辑 文件 
$vi kafka.log 


12.4.5 ”第 四 步 : 运行 fume-ng 命令 





进入 Linux 环境 的 /opt/cloudera/parcels/CDH/etc/flume-ng/conf.empty 目录 下 ， 运 行 下 面 的 命令 
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脚本 ( 见 图 12-9) : 


# 命 令 语句 
$flume-ng agent --conf-file kafka.properties -c conf/ --name agent 
-Dflume.root.logger-DEBUG, console 





f.empty]£ flume-ng agent --conf-file Kkafka.properties -c conf.empty/ --name agent -Dflu 


DEBUG , console 





12.4.6 ”第 五 步 : 运行 命令 脚本 


进入 Linux 环境 的 /opt/cloudera/parcels/KAFKA/lib/kafka/bin 目录 下 ， 运 行 下 面 的 命令 脚本 : 





# 命 令 语 句 


$./kafka-console-consumer.sh --ZooKeeper localhost:2181 --topic kafkatest 





如 图 12-10 所 示 ， 注 意 此 命令 窗口 不 要 关闭 。 


root&hadoop bin]# ./kafka-co e E r.s eepe t:2181 --topic kafl 
F 





图 12-10 


12.4.7 ”最 后 一 步 : 测试 结果 


新 开启 一 个 终端 窗口 ， 进 入 Linux 环境 的 /tmp/logs 目录 下 ， 随 意 插 入 一 些 数 据 到 kafka.log 文 
件 中 ， 命 令 脚本 如 下 : 


# 命 令 语句 
$vi kafka.log 





如 图 12-11 所 示 ， 随 便 输入 数据 a、b、c。 
[root@hadoop logs]# vi kafka.log 





图 12-11 


如 图 12-12 所 示 ， 在 下 面 的 命令 窗口 中 如 果 出 现 插 入 的 信息 ， 就 表明 本 案例 顺利 完成 。 
[root@hadoop opic kafkatest 


a 
b 
c 
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分 布 式 消息 系统 Kafka 


Kafka 是 Linkedin F 2010 年 12 月 开源 的 消息 系统 ,主要 用 于 处 理 活 跃 的 流 式 数据 。 活 跃 的 流 
式 数据 在 Web 网 站 应 用 中 非常 常见 ， 包 括 网 站 的 pv、 用 户 访问 了 什么 内 容 、 用 户 搜索 了 什么 内 容 
等 。 这 些 数据 通常 以 日 志 的 形式 记录 下 来 ， 然 后 每 隔 一 段 时 间 进 行 一 次 统计 处 理 。 

传统 的 日 志 分 析 系 统 提 供 了 一 种 离线 处 理 日 志 信息 的 可 扩展 方案 ， 若 要 进行 实时 处 理 ， 通 常 
会 有 较 大 延迟 。 而 现 有 的 消息 (队列) 系统 能 够 很 好 地 处 理 实时 或 者 近似 实时 的 应 用 ， 但 未 处 理 的 
数据 通常 不 会 写 到 磁盘 上 ， 这 对 于 Hadoop 之 类 〈 一 小 时 或 者 一 天 只 处 理 一 部 分 数据 ) 的 离线 应 用 
而 言 可 能 存在 问题 。Kafka 正 是 为 了 解决 以 上 问题 而 设计 的 ， 它 能 够 很 好 地 支持 离线 和 在 线 应 用 。 





13.1 Kafka 架构 设计 


13.1.1 基本 架构 


Kafka 的 整体 架构 是 很 简单 的 ， 它 是 显 式 分 布 式 架构 ， 架 构图 如 图 13-1 所 示 。 从 架构 图 可 以 
看 出 ， 生 产 者 Producer. 缓存 代理 Broker 和 消费 者 Consumer 都 可 以 有 多 个 。Producer 和 Consumer 
实现 Kafka 注册 的 接口 ， 数 据 从 Producer 发 送 到 Broker, Broker 承担 一 个 中 间 缓 存 和 分 发 的 作用 。 
Broker 分 发 注册 到 系统 中 的 Consumer。Broker 的 作用 类 似 于 缓存 ， 即 活跃 的 数据 和 离线 处 理 系统 
之 间 的 缓存 。 客 户 端 和 服务 器 端的 通信 是 基于 简单 的 、 高 性 能 的 且 与 编程 语言 无 关 的 TCP 协议 。 
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生产 者 生产 者 生产 者 
(Producer) (Producer) (Producer) 





ZooKeeper 
集群 





消费 者 消费 者 消费 者 
(Consumer) (Consumer) (Consumer) 


13-1 


Kafka 使 用 ZooKeeper 作为 其 分 布 式 协调 框架 ， 其 动态 扩容 是 通过 ZooKeeper 来 实现 的 。 


13.1.2 ”基本 概念 


数据 发 生 器 (如 Facebook, Twitter) 产生 的 数据 会 被 单个 地 运行 在 其 服务 器 上 的 Agent 所 收 
集 ， 之 后 数据 收集 器 从 各 个 Agent 上 汇集 数据 ， 并 将 采集 到 的 数据 存 入 HDFS 或 者 HBase 中 。 这 
个 过 程 涉及 以 下 几 个 基本 概念 。 


(1) Topic: 特 指 Kafka 处 理 的 消息 源 的 不 同 分 类 。 

(2) Partition: Topic 物理 上 的 分 组 ， 一 个 Topic 可 以 分 为 多 个 Partition， 每 个 Partition 是 一 
个 有 序 的 队列 。Partition 中 的 每 条 消息 都 会 被 分 配 一 个 有 序 的 id. 

(3) Message: 消息 ， 是 通信 的 基本 单位 。 每 个 Producer 可 以 向 一 个 Topic (EB) 发 布 一 些 
消息 。 

(4) Producer: 消息 和 数据 生产 者 。 向 Kafka 的 一 个 Topic 发 布 消息 的 过 程 叫 作 Producer。 

(5) Consumer: 消息 和 数据 消费 者 。 订 阅 Topics 并 处 理 其 发 布 的 消息 的 过 程 叫 作 Consumer。 

(6) Broker: 缓存 代理 。Kafka 集群 中 的 一 台 或 多 台 服 务 器 统称 为 Broker。 一 台 Kafka 服务 
器 就 是 一 个 Broker。 一 个 集群 由 多 个 Broker 组 成 ， 一 个 Broker 可 以 容纳 多 个 Topic。 


13.1.3 Kafka 主要 特点 


(1) 同时 为 发 布 和 订阅 提供 高 吞吐 量 。Kafka 每 秒 可 以 生产 约 25 万 条 消息 (50 MB) ， 每 秒 
处 理 55 万 条 消息 (110 MB) 。 

(2) 可 进行 持久 化 操作 。 将 消息 持久 化 到 磁盘 ， 因 此 可 用 于 批量 消费 (例如 ETL) 以 及 实时 
应 用 程序 。 通 过 将 数据 持久 化 到 硬盘 以 及 replication， 以 防止 数据 丢失 。 
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(GO 分 布 式 系统 ， 易 于 向 外 扩展 。 所 有 的 Producer. Broker 和 Consumer 都 会 有 多 个 ， 均 为 
分 布 式 的 ， 无 须 停机 即 可 扩展 机 器 。 

(4) 消息 被 处 理 状 态 是 在 Consumer 端 维护 ， 而 不 是 由 Server 端 维护 ， 当 失败 时 能 自动 平衡 。 

(5) 支持 online 在线) 和 offline (离线 ) 的 场景 。 


13.2.1 





13.2 Kafka 原理 解析 


主要 的 设计 理念 


Kafka 之 所 以 和 其 他 绝 大 多 数 信息 系统 不 同 , 是 由 下 面 这 几 个 为 数 不 多 的 比较 重要 的 设计 理念 


决定 的 : 


Kafka 在 设计 之 时 ， 就 将 持久 化 消息 作为 通常 的 使 用 情况 进行 考虑 。 

Kafka 主要 的 设计 约束 是 吞吐 量 而 不 是 功能 。 

和 Kafka 有 关 的 那些 已 经 被 使 用 了 的 状态 信息 保存 为 数据 消费 者 (Consumer ) 的 一 部 分 ， 而 
不 是 保存 在 服务 器 之 上 。 

Kafka 是 一 种 显 式 的 分 布 式 系统 。 它 假设 数据 生产 者 (Producer) 、 代 理 (Broker) 和 数据 消 
费 者 (Consumer ) 分 散 于 多 台 机 器 之 上 。 


13.2.2 ZooKeeper 在 Kafka 的 作用 


ZooKeeper 在 Kafka 的 作用 如 下 : 


无 论 是 Kafka 集群 还 是 Producer 和 Consumer， 都 车 ZooKeeper 来 保证 系统 可 用 性 ， 集 群 保 
存 一 些 meta 元 信息 。 

Kafka 使 用 ZooKeeper 作为 其 分 布 式 协调 框架 ， 很 好 地 将 消息 生产 、 消 息 存储 、 消 息 消费 的 
过 程 结合 在 一 起 。 

借助 ZooKeeper 的 作用 ，Kafka 能 够 将 生产 者 、 消 费 者 和 Broker 在 内 的 所 有 组 件 在 无 状态 的 
情况 下 ， 建 立 起 生产 者 和 消费 者 的 订阅 关系 ， 并 实现 生产 者 与 消费 者 的 负载 均衡 。 

Kafka 增加 和 减少 服务 器 都 会 在 ZooKeeper 节点 上 和 触发 相应 的 事件 , Kafka 系统 会 捕获 这 些 事 
件 ， 进 行 新 一 轮 的 负载 均衡 ， 客 户 端 也 会 捕获 这 些 事件 来 进行 新 一 轮 的 处 理 。 


13.2.3 Kafka 在 ZooKeeper 的 执行 流程 


观察 Kafka 的 执行 流程 图 (图 13-2) ， 可 以 得 出 下 面 的 结论 : 


Serverl 就 是 Kafka 的 Server， 因 为 Producer 和 Consumer 都 要 使 用 它 ，Broker 主要 还 是 
作为 存储 使 用 。 
Server2 是 ZooKeeper 的 Server 端 ， 记 录 了 各 个 节点 的 于 、 端 口 等 信息 。 
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© Server3、 Server4、 Server5 的 共同 之 处 就 是 都 配置 了 zkClient， 更 明确 地 说 就 是 运行 前 必须 
配置 ZooKeeper 的 地 址 ， 这 之 间 的 连接 都 需要 ZooKeeper 来 进行 分 发 。 
© Server] 和 Server 可 以 放 在 一 台 机 器 上 ， 也 可 以 分 开放 。ZooKeeper 也 可 以 配 成 集群 ， 目 的 


是 防止 某 一 台 ZooKeeper 服务 器 异常 宕 机 。 
Server4 


producer2 






zkClient 











Server3 
producer1 











Server2 
ge Zookeeper: 
Server 


Info-list 


Server5 





consumer 


图 13-2 


13.3 Kafka 安装 和 部 署 


13.3.1 CDH5 完美 集成 Kafka 


Cloudera 已 经 完美 集成 Kafka， 仅 仅 把 Kafka 的 包 和 CDH 的 Parcel 包 进 行 分 离 。 安 装 时 只 需 
要 把 分 开 的 Kafka 的 服务 描述 JAR 包 和 服务 Parcel 包 进 行 下 载 ， 就 可 以 实现 完美 集成 。 下 面 就 是 
根据 官方 文档 进行 的 集成 过 程 。 

Kafka 相关 包 的 准备 : 





csd 包 : http://archive.cloudera.com/csds/kafka/ 
parcel 包 : http://archive.cloudera.com/kafka/parcels/latest/ 





因为 使 用 的 是 CentOS6.5， 且 是 64 位 的 系统 ， 所 以 下 载 的 Parcel 包 为 : 





KAFKA-0.8.2.0-1.kafkal.3.2.p0.56-e16.parcel 


0 
KAFKA-0.8.2.0-1.kafkal.3.2.p0.56-e16.parcel.shal 
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第 一 步 : 关闭 集群 ， 关 闭 cm 服务 。( 假 如 不 关闭 cm 服务 ， 在 添加 Kafka 服务 时 就 会 出 现 找 
不 到 相关 服务 描述 的 问题 。) 

第 二 步 : 将 csd 包 放 到 cm 安装 节点 下 的 /opt/cloudera/esd 目录 下 。 

第 三 步 : 将 parcel 包 放 到 cm 安装 节点 下 的 /opt/cloudera/parcel-repo 目录 下 。 

第 四 步 








启 服务 , 执行 service cloudera-scm-agent restart 和 service cloudera-scm-server restart, 


第 五 步 : 启动 cm 服务 ， 分 配 并 激活 Parcel 包 ， 结 果 如 图 13-3 所 示 。 













[ 225: H- ak Bk- Ea 


Wü UAE Parcel 





Parcel b 
位 置 Cluster 1 
pee Eh s: 
m CDH5 5,50-1.cdh5.5.0.p0.8 CAR. CONGR. 


KAFKA 0.8.2.0-1 Katka1.3.2.p0.15 已 分 配 CAE 





图 13-3 


第 六 步 : 添加 Kafka 服务 ， 如 图 13-4 所 示 。 


Apache Kafka is publish-subscribe messaging rethought as a distributed commit log 


is activated or the Kafka package is installed 





图 134 
最 后 一 步 : 启动 服务 ， 如 图 13-5 所 示 。 


图 13-5 


13.3.2 Kafka 部 署 模式 和 配置 


Kafka 部 署 基 本 有 下 面 三 种 方式 ， 如 图 13-6 所 示 。 
单 Broker 的 配置 : 


TUE 

broker.id: 0 

port: 9092 

log.dirs: /root/kafka/logs 
zookeeper.connect: zookeeper01:2181 
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。 单 Broker 模 式 。 单机 多 Broker 模 式 〈 伪 集群 模式 ) 


Broker2 





* 多 机 多 Broker 模 式 〈 真 正 的 集群 模式 ) 





图 13-6 


单机 多 Broker 的 配置 : 


#Brokerl 

broker.id: 1 

port: 9093 

log.dirs: /root/kafka/logs/broker2 
zookeeper.connect: zookeeper01:2181 
#Broker2 

broker.id: 2 

port: 9093 

log.dirs: /root/kafka/logs/broker2 
zookeeper.connect: zookeeper01:2181 


多 机 多 Broker 的 配置 : 


#Brokerl 

broker.id: 1 

port: 9093 

log.dirs: /root/kafka/logs/brokerl 
zookeeper.connect: zookeeper01:2181 
#Broker3 

broker.id: 3 

port: 9093 

log.dirs: /root/kafka/logs/broker3 
zookeeper.connect: zookeeper02:2181 














核心 配置 文件 是 server.properties。 默 认 情况 下 ， 在 每 个 Kafka Broker 中 的 配置 文件 必须 配置 
的 属性 如 图 13-7 所 示 。 
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broker.id-e 

num.network.threads-2 
num.io.threads-8 
socket.send.buffer.bytes-1048576 
socket.receive.buffer.bytes-19048576 
socket.request.max.bytes-104857600 
log.dirs-/tmp/kafka-logs 
num.partitions-2 
log.retention.hours-168 


log.segment.bytes-536870912 
log.retention.check.interval.ms-60000 
log.cleaner.enable-false 








zookeeper.connect-localhost:2181 


zookeeper.connection.timeout.ms-1000000 


图 13-7 


13.4 Java 操作 Kafka 消息 处 理 实例 


13.4.1 ”例子 概述 


Kafka 是 吞吐 量 巨大 的 消息 系统 ， 可 以 使 用 Scala 语言 编写 程序 ， 也 支持 Java 语言 。 

例子 概述 第 一 部 分 : 使 用 Java 语言 编写 生产 者 ProducerDemo 代码 ， 代 码 的 业务 功能 是 每 隔 5 
秒 将 消息 发 布 到 Topic 主题 中 。 

例子 概述 第 二 部 分 : 使 用 Java 语言 
编写 消费 者 ConsumerDemo 代码 ， 代 码 Create a Java Project 
的 业务 功 能 是 实时 消 费 或 者 处 理 Topic Create a Java project in the workspace or in an external 
的 日 志 信 息 ， 最 终 在 命令 窗口 打印 出 结 [9 


果 信 息 ° Project name: [hadoop| = 








[v Use default location 


1 3.4.2 第 一 步 : 新 建 工 程 Location: Di\eclipse\workspace\hadoop Browse.. 


JRE 


打开 Eclipse 这 个 开发 工具 š 新 建 一 ® Use an execution environment JRE: Java9E-1.7 
个 Java 工程 ,如 图 13-8 所 示 。 Use a proiect specific JRE: ire7 








13.4.8 ”第 二 步 : 编写 代码 @ 


在 Eclipse 的 工程 里 面 ， 新 建 Java 13-8 
程序 ， 编 写 代 码 ， 并 生成 Class 文件 ， 如 
图 13-9 所 示 。 


< Back Finish | Cancel 
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File Edit Source Refactor Navigate Search Project Scala Run Window Help 




















rues B lal ?Es ver Or a rr 
i Package Bplarer Bà 7-5 = 
+ 52 HADOOP Project ^ ^ 
58 hadoop class private String topic; 
Me epe public Producerbemo(String topic) 
enter p rie = me; 
日 ConqumerDemaToHDFsja g. Mblsc vota run()( 
i» ConsumerMsqTaskjava //'e — produc 
7 HDFSUtikiava | Producer. producer = createProducer(); 
i KafkaProducerjava imti-e; — /jxise 
š ParitionerDemo ava. while(true)( 
i ProducerDemojava String data tede 
58 kafka cess? Je liproduer sias N 
"doce ari -I producer.send(neu KeyedMessage(this.topic, data));| 
59 real tin System.our.printin(^-strs, " + data); 
real time rec Fr 
3» scala class? Tineunit. SECONDS .s1eep(5); 
% scala clas ) catch (Exception e) ( 
% scala clas e.printStackTrace(); 
o» spark class? ) 
i» spark class? $ 
class3 
pe /Producern= 


# spark class 
= Scala Library [2.1044] 
> JRE System library LavaSE-1.7] 
= Referenced Libraries 


is private Producer createProducer() { 
Properties prop = new Properties(); 
seper 
jokeeper. connect", "10.1.114.98:2181"); 











file 'rializer.class",StringEncoder.class.getName()); 
i hive lib f 

assqa prop. put("netadata. broker. list", "19.1.114.98:9992"); 

Isi ` return nev Producer(nee ProducerConfig(prop)); 

1 
MR ib 
b ic ve atri n 

i &ala lib pul i = void main(String[] args) ( 
= spark hb neu ProducerDeno( "mydeno1"). start(); 
Bkafka_2.10-0.8.1.1jar ) ` 








spark-assembly-1.2.0-cdh5.38- 





图 13-9 


13.44 ”第 三 步 : 运行 发 送 数 据 程序 


右 击 ProducerDemo 程序 的 “run”， 程 序 就 开始 运行 ， 如 图 13-10 所 示 。 




















i) ProducerDemo. Java tt T ConsunerDe "T =a 
int i = 6; S 
uhile(true)( 

String data = "message " + i++; 

//&Rproduerk ae 

à producer.send(neu KeyedMessage(this.topic, data)); 

System.out.println("* zw." + data); 

try ( 
TimeUnit.SECONDS.sleep(5); 

} catch (Exception e) ( 
e.printstackTrace(); 

k 

} 
/ /创举 Producer 的 实例 

à private Producer createProducer() í 
Properties prop - neu Properties(); 

4 1 &tRzonlieener. Y 
< > 
SiProblens Tasks © Console :: $ Debug = Navigator mx IET- -EL = r; v = n 

ProducerDemo (1) [ava Application] CAProgram Files (x86)UavayrezWbinjavaw.exe (201753: 10H) T-5-3:56:10) 

17/03/18 15:56:11 INFO producer.SyncProducer: Connected to 10.1.114.98:9092 for producing ^ 

XE: message 日 

:message 1 
: message 2 
: message 3 
: message 4 
: message 5 
: message 6 
: message 7 
: message 8 
: message 9 
: message 16 
: message 11 
: message 12 
: message 13 
: message 14 
xiii macanan iE 





图 13-10 
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结果 : 生产 端 每 隔 5 秒 会 实时 发 送信 息 ， 并 在 命令 窗口 打印 数据 。 
注意 : 在 运行 时 此 窗口 不 要 关闭 。 


13.4.5 ”最 后 一 步 : 运行 接收 数据 程序 








再 开 个 运行 代码 的 窗口 ， 右 击 ConsumerDemo 运行 ， 如 图 13-11 所 示 。 
if ProducerDemo. java X 国 ConsumerDemo. java E: š exanr ET a -— n 
package kafka classi; 2 


import java.util.HashMap; 
import java.util.List; 
import java.util.Map; 
import java.util.Properties; 
import kafka.consumer.Consumer; 
import kafka.consumer.ConsumerConfig; 
import kafka.consumer.ConsumenrIterator; 
import kafka.consumer.KafkaStream; 
import kafka.javaapi.consumer.ConsumerConnector; 
public class ConsumerDemo extends Thread í 
/ /指定 具体 的 topic 
private String topic; 
public ConsumerDemo(String topic){ 
this.topic - topic; 


a muühlie vaid run(M. 


"Problems 可 Tasks © Console = $ Debug “Navigator m x |a RER e 9 v ri ”6 
ConsumerDemo (1) [Java Application] C:\Program Files (x86)Javayre7\binVavaw.exe (2017 年 3 月 10 日 下午 3.59:56) 

17/03/10 15:59:58 INFO consumer.RangeAssignor: Consumer groupi mac-1489132798001-2388d371 rebalancing ^ 
17/03/10 15:59:58 INFO consumer.RangeAssignor: groupi mac-1489132798001-2388d371-0 attempting to claim 
17/03/10 15:59:58 INFO consumer.ZookeeperConsumerConnector: [groupl mac-1489132798001-2388d371], group 
17/03/10 15:59:58 INFO consumer.ZookeeperConsumerConnector: [groupl mac-1489132798001-2388d371], Consu 
17/03/10 15:59:58 INFO consumer.ConsumerFetcherManager$LeaderFinderThread: [groupi mac-1489132798001-2 
17/03/10 15:59:58 INFO consumer.ZookeeperConsumerConnector: [groupl mac-1489132798001-2388d371], end r 
17/03/10 15:59:58 IMFO utils.VerifiableProperties: Verifying properties 

17/03/10 15:59:58 INFO utils.VerifiableProperties: Property client.id is overridden to group1 

17/03/10 15:59:58 INFO utils.VerifiableProperties: Property metadata.broker.list is overridden to 10.1 
17/03/10 15:59:58 INFO utils.VerifiableProperties: Property request.timeout.ms is overridden to 30000 
17/03/10 15:59:58 INFO client.ClientUtils$: Fetching metadata from broker id:1,host:10.1.114.98,pont:9 
17/03/10 15:59:58 INFO producer.SyncProducer: Connected to 10.1.114.98:9992 for producing 

17/03/10 15:59:58 INFO producer.SyncProducer: Disconnecting from 10.1.114.98:9092 

17/03/10 15:59:58 INFO consumer.ConsumerFetcherThread: [ConsumerFetcherThread-groupi mac-1489132798001 
17/03/10 15:59:58 INFO consumer.ConsumerFetcherManager: [ConsumerFetcherManager-1489132798117] Added f 
接受 数据 : message d 

接受 数据 : message 1 











图 13-11 
运行 结果 : 消费 端 每 隔 5 秒 实时 接收 到 对 方 发 送 的 信息 。 


13.5 Kafka 与 HDFS 的 集成 


13.5.1 与 HDFS 集成 介绍 


对 于 一 个 实时 订阅 的 系统 来 说 ， 可 以 通过 Kafka 将 实时 处 理 和 监控 的 数据 加 载 到 Hadoop 的 
HDFS、NoSQL 数据 库 或 者 数据 仓库 中 。Kafka 提供 的 Hadoop Producer 和 Consumer 用 于 集成 
Hadoop， 功 能 流程 图 如 图 13-12 所 示 。 
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Kafka = Hadoop 


消息 系统 HDFS 





图 13-12 


13.5.2 5 HDFS 集成 实例 


本 节 给 出 的 示例 的 主要 处 理工 作 分 四 个 部 分 。 

第 一 部 分 : 使 用 Java 语言 编写 HDFSUtils 代码 ， 主 要 是 写 入 HDFS 的 函数 。 

第 二 部 分 : 编写 实时 消费 信息 并 写 入 到 HDFS 的 代码 ConsumerDemoToHDFS. 

第 三 部 分 ， 打包 成 JAR 包 ， 上 传 到 Kafka 服务 器 ， 运 行程 序 ， 命 令 窗口 会 打印 出 结果 ， 并 写 
入 到 HDFS 文件 。 

第 四 部 分 : 查看 HDFS 文件 系统 的 数据 文件 ， 确 定 是 否 是 正确 的 数据 。 


13.5.3 ”第 一 步 : 编写 代码 一 一 发 送 数据 


在 Eclipse 编写 代码 ， 并 生成 .class 文件 ， 代 码 如 下 所 示 。 


package kafka classl ; 
import java.util.Properties; 
import java.util.concurrent.TimeUnit; 
import kafka.javaapi.producer.Producer; 
import kafka.producer.KeyedMessage; 
import kafka.producer.ProducerConfig; 
import kafka.serializer.StringEncoder; 
public class ProducerDemoToHDFS extends Thread ( 
// 指 定 具 体 的 topic 
private String topic; 
public ProducerDemoToHDFS (String topic){ 
this.topic = topic; 
P 
public void run(Q { // 每 隔 2 秒 发 送 一 条 消息 
// 创 建 一 个 producer 的 对 象 
Producer producer = createProducer(); 
int i = 0; // 发 送 消息 
while (true) { 
String data = "message " + i++; 
/ /& FH producer 发 送 消 息 
producer.send(new KeyedMessage(this.topic, data)); 
System.out .Println(" 发 送 数据 : " + data); 
try ( 
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TimeUnit .SECONDS .sleep (2) ; 
) catch (Exception e) ( 
e.printStackTrace(); 


} 
// 创 建 Producer 的 实例 
private Producer createProducer() ( 
Properties prop - new Properties(); 
// 声 明 zookeeper 
prop.put("zookeeper.connect", "192.168.6.153:2181"); // 修 改 IP 地 址 
prop.put("serializer.class",StringEncoder.class.getName()); 
//j88] Broker 的 地 址 
prop.put ("metadata.broker.list","192.168.6.153:9092") ;// 修 改 IP 地址 
return new Producer (new ProducerConfig (prop)); 
} 
public static void main(String[] args) { 
// 启 动 线程 发 送 消息 
//new ProducerDemo ("mydemo client").start(); 
new ProducerDemoToHDFS ("mydemo hdfs").start(); 





13.54 第 二 步 : 编写 代码 一 一 接收 数据 


在 Eclipse 中 编写 代码 ， 并 生成 class 文件 ， 如 图 13-13 所 示 。 





File Edit Source Refactor Navigate Search Project Scala Run Window Help 





` lol so ?9 国 mwve-o-a-er-Davive=v v 





3 Package Explorer E 








+ # HADOOP Project ^ n» topicCountMap = new HashMap<String, Integer»(); ^ 
sese 1 p: s 
B hadoop, claest topiecounutap.put(tMs topic, iy 
za ems cu //String: topict&b List: amme 
i ConsumerDernojava. MapéString, List«KafkaStreamcbyte[], byte[]>>> messageStreams = consumer.createMessageStre 
U ConsumerDemoToHDFS jav N RERAN TERR 
ji ConsumerMsgTaskjava. KafkaStream«byte[], byte[]» stream = messageStreams.get(this.topic).get(0); 
Ë HDFSUtilsjava Consuneriterator«byte[], byte[]> iterator = stream.iterator(); 
ú KafkaProducerjava while(iterator.hasNext())( 


String message = nev String(iterator.next().message(Q); 


W PartitionerDemojava. 
System. out .print1n( "es, " + message); 





li ProducerDemojava : 

a kafka. class? ty "d ind 

* katka classi HOFSUEi1s. sendToADFS(" /kafka/data3. txt", message); 
55 real time rec ) catch (Exception e) í 

scala class? i e.printStackTraceQ ; 

is scala classa + 

a scala class H 

t spariclaset / /econsuner 

Sk private ConsumerConnector createconsumer() { 


spark class rties prop = new Properties); 
+ spark, clase 1 Hz 

m= Scala Library [2:104] prop. put("zookeeper. connect" 
> JRE System Library | 











710.1.114.98:21817); 
*, 192.168.137.31:2181,192.168.137.32:2181,192.168,137.33:21 





>= Referenced Libraries 
= file prop.put("group.id", "groupl"); , 

ehive lb y Tm Chet -cresta aac onsimer Corector (om Conse tonti (ores; 
ed public static void main(string[] args) { 

e new ConsumerDemoTcHOFS("mydemo hdfs").start(; 

e MR ib. } 

© scala ib y 

= spark lib 


3 kafka 210-0811 jar 
i sparkcessembly-1 2 0-cdns 33-. 
sparkcassemblv-L30-SNAPSHC 





x 








图 13-13 
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13.5.5 ”第 三 步 : 导出 文件 


把 对 应 的 代码 导出 成 JAR 的 格式 ， 如 图 13-14 所 示 。 





Scala - HADOOP Projecusrc/kafka class1/ProducerDemojava - Scala IDE 
File Edit Source Refactor Navigate Search Project Scala Run Window Help 


图 = 
it Package Explorer 1 
+ 3$ HADOOP Project. 
acts 
8 hadoop classi 
+ iB kafka class1 
ñ ConsumerDemojava 
in ConsumerDemoToHDFS jav 
Di ConsumerMsolaskjava 
in HDFSUtilsjava 
Iñ KafkaProducerjava 
in PartitionerDemojava 
in ProducerDemojava 
ñ Kafka class? 
5$ kafka class3 
% real time rec 
& scala class2 
/$ scala class3 
5$ scala class 
i$ spark class 
^ spark class? 
3$ spark class3 
“Ë spark class 





I dii $P4syw5v-0vQv*svl 


Export resources into a JAR file on the local file system 


Select an export destination: 
| 
2c Java 
-^JARfile 
$ Javadoc 
A Runnable JAR file 


c» Plug-in Development 
DuniDoh 





Finish 





图 13-14 


13.5.6 ”第 四 步 : 上 传 文件 


导出 的 JAR 文件 需要 上 传 到 Hadoop 服务 器 上 ， 如 图 13-15 所 示 。 


Cancel 





文件 (E) WMD AAV 传输 CD 服务 器 (S) BEB HOH) ART ! N) 


ww -| TI 


主机 (H); 10.1.104.127 APU): root 


svn 
密码 (W): e 








志 : Listing directory /root/spark 
vts: 列 出 Vroot/spark" 的 目录 成 功 























本 地 站 点 :|D\eclipse\workspace\ v E353 /root/spark- v 
J. readme m Ñ? snappy-java-1.04.1jar. ^ 
a J workspace - i L spark ja 
um B eanan 14E ndhe a0 iar 
文件 名 A | 文件 名 文件 大 小 文件 六 
bk hadoop la - 
È rbds micro shop h sogou 文件 
È ScalainAction Bbbbbjar 87,850,145 360 
aaaaaaaa i lfexamplel jar 5,535 3608 
examplet xt 12 X 
example2 txt example2 txt 924 SUA 


BM examole3.iar. 
< 


选择 了 1 个 文件 。 大 小 总 共 : 5.535 F 
服务 器 /本 地 文件 


Pe 


13.5.7 ŞEH: 





|88 examnie3 iar 

viij 

[AET 1 个 文件 。 AE 5535 s 
方向 RER 


图 13-15 


运行 程序 一 一 发 送 数据 


SSH 到 Kafka 服务 器 ， 执 行 对 应 的 脚本 : 


大 小 优先 . 


9629 360n V 
> 


状态 





# 执 行 的 命令 


$hadoop jar /root/kafka/ConsumerDemoToHDFS.jar 
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| kafka class1.ProducerpemoTonDrS | 


运行 窗口 如 图 13-16 所 示 。 


[i 19216820476 - SecureCRT 


x) Ei) BEN) WAO (exc Ee) IAV EDO WDH 





al3jLl2x 
[rootehadoop 
图 13-16 
在 窗口 中 输入 123 4。 (EAK: 此 窗口 不 要 关闭 。) 


13.5.8 第 六 步 : 运行 程序 一 一 接收 数据 


SSH 到 Kafka 服务 器 ， 执 行 对 应 的 脚本 : 





# 执 行 的 命令 
$hadoop jar /root/kafka/ConsumerDemoToHDFS.jar 
kafka classl.ConsumerDemoToHDFS 








运行 窗口 如 图 13-17 所 示 。 


[S 10216820476 - SecureCk 
ii) RKO mao) MO) e Nc) IRAY mno) RAH 
UEQX ñ 63 235 om 


19216820476. x 





[rootahadoopmaster ~]# hadoop jar /roo onsumerDemoTo jar kafka_class1.ConsumerDemoToHC 


图 13-17 


13.5.9 ”最 后 一 步 : 查看 执行 结果 


打开 一 个 命令 窗口 ， 执 行 下 面 的 脚本 : 
# 执 行 的 脚本 
$hadoop fs -ls /kafka 
$hadoop fs -cat /kafka/data.txt 








0 2017-02-23 14:53 /kafka/data.txt 
图 13-18 


第 14 章 


大 数据 ETL 工具 Kettle 











Kettle 是 一 个 Java 编写 的 ETL 工具 ,主要 作者 是 Matt Casters, 2003 年 就 开始 了 这 个 项 目 , 最 
新 稳定 版 为 7.1。2005 年 12 H, Kettle 从 2.1 版 本 开始 进入 了 开源 领域 , 一 直到 4.1 版 本 遵守 LGPL 
协议 ， 从 4.2 版 本 开始 遵守 Apache Licence 2.0 协议 。Kettle 在 2006 年 初 加 入 了 开源 的 BI 公司 
Pentaho， 正 式 命 名 为 Pentaho Data Integeration， 简 称 “PDI”。 自 2017 年 9 月 20 日 起 ，Pentaho 
被 合并 于 日 立 集团 下 的 新 公司 Hitachi Vantara。Kettle 可 以 简化 数据 仓库 的 创建 、 更 新 和 维护 ， 使 
用 Kettle 可 以 构建 一 套 开源 的 ETL 解决 方案 。 





14.4 ETL 原理 


14.1.1 ETL 简介 


ETL CExtract-Transform-Load ) 是 数据 抽取 、 转 换 、 装 载 的 过 程 。 信 息 是 现代 企业 的 重要 资源 ， 
是 企业 运用 科学 管理 、 决 策 分 析 的 基础 。 目 前 ， 大 多 数 企 业 花 费 大 量 的 资金 和 时 间 来 构建 联机 事务 
处 理 OLTP 的 业务 系统 和 办 公 自 动 化 系统 , 用 来 记录 事务 处 理 的 各 种 相关 数据 。 据 统计 ， 数 据 量 每 
2 一 3 年 就 会 成 倍增 长 ， 这 些 数据 蕴含 着 巨大 的 商业 价值 ， 而 企业 所 关注 的 数据 通常 只 占 总 数据 量 
的 2% 一 4%。 因 此 , 企业 仍然 没有 最 大 化 地 利用 已 存在 的 数据 资源 , 导致 浪费 了 更 多 的 时 间 和 资金 ， 
也 失去 了 制定 关键 商业 决策 的 最 佳 契 机 。 企业 如 何 通 过 各 种 技术 手段 把 数据 转换 为 信息 、 知 识 已 经 
成 为 提高 其 核心 竞争 力 的 主要 瓶颈 。ETL 技术 就 是 其 中 一 种 主要 的 技术 手段 。 

ETL 作为 BUDW (Business Intelligence) 的 核心 和 灵 瑰 ， 能 够 按照 统一 的 规则 集成 并 提高 数据 
的 价值 ， 是 负责 完成 数据 从 数据 源 向 目标 数据 仓库 转化 的 过 程 ， 是 实施 数据 仓库 的 重要 步 又。 如 果 
说 数据 仓库 的 模型 设计 是 一 座 大 厦 的 设计 蓝图 、 数 据 是 砖 瓦 ， 那 么 ETL 就 是 建设 大 厦 的 过 程 。 
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14.1.2 ETL 在 数据 仓库 中 的 作用 


ETL 用 于 建立 数据 仓库 ， 但 不 仅 限于 这 一 领域 。 换 名 话说， 使 用 ETL 工具 可 以 完成 从 目标 数 
据 源 进行 数据 抽取 ,经 过 一 系列 的 数据 转换 ， 最终 形成 需要 的 数据 模型 并 加 载 到 数据 仓库 中 。ETL 
在 数据 仓库 中 的 作用 如 图 14-1 所 示 。 





ELIR | || CH: mz: 

DataStage Oracle 109/119 | MAWRA : 

PowerCenter Teradata m35t$ Smartbi 
Kettle Cognos 


Business Object 





MySQL 
| Microsoft SQLSERVER | 
L MAS 


图 14-1 


14.2 Kettle 简介 


Kettle 是 一 款 采 用 纯 Java 实现 的 开源 ETL 工具 ， 属 于 开源 商务 智能 软件 Pentaho 的 一 个 重要 
组 成 部 分 。Kettle 提供 了 一 系列 的 组 件 ， 用 于 完成 数据 抽取 、 转 换 、 加 载 的 工作 。 正 如 Kettle 一 词 
的 中 文 意思 “水 壶 ”一 样 ， 使 用 Kettle 处 理 数据 就 像 从 水 壶 中 倒 水 一 样 ， 先 把 各 种 数据 放 到 一 个 过 
里 ， 再 以 一 种 指定 的 格式 流出 。Kettle 界面 如 图 14-2 所 示 。 
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图 14-2 


14.3 Kettle 完整 案例 实战 


14.3.1 ”案例 介绍 


本 节 的 案例 是 采集 原始 的 数据 ， 通 过 数据 处 理 找 出 不 同性 别 、 不 同年 龄 、 不 同 职业 的 用 户 ， 
分 析 这 些 用 户 对 哪 类 产品 购买 的 数量 比较 多 ， 为 建立 数据 仓库 、 进 行 数据 挖 气 和 OLAP 多 维 分 析 
做 好 数据 的 准备 。 


14.3.2 “最终 效果 


采集 客户 、 订 单 、 产 品 3 个 表 中 的 原始 数据 ， 结 果 数 据 关联 和 处 理 ， 生 成 对 应 的 数据 文件 ， 
将 数据 文件 ETL 到 最 终 的 结果 表 中 ， 并 且 可 以 用 作业 job 的 方式 来 调度 整个 流程 。 

要 求 达到 成 果 : 

(1) 产生 对 应 的 Kettle 文件 。 

(2) Kettle 流程 可 以 正确 执行 ， 不 报错 。 

(3) 生成 对 应 的 数据 文件 ， 并 能 保证 格式 无 误 ， 对 应 表 中 有 数据 并 且 格 式 无 误 。 

(4) 通过 数据 清洗 抓 取 有 用 数据 ， 作 为 以 后 分 析 的 数据 基础 。 


14.3.3 Sij RH 


数据 库 中 存在 4 张 表 ， 说 明 如 下 : 
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user 表 存放 客户 信息 。 

product 表 存 放 产 品 信息 。 

order 表 存 放 订单 信息 。 一 个 客户 对 应 多 个 订单 ， 一 个 产品 对 应 多 个 订单 。 

order all 表 存 放 结 果 数 据 ， 需 要 从 相关 的 表 中 获取 到 字段 中 的 信息 ， 获 取 不 到 的 信息 可 以 通 
过 相关 处 理 或 添加 默认 值 的 方式 写 入 。 


14.84 ”第 一 步 : 准备 数据 库 数据 


准备 数据 库 数 据 ， 新 建 4 个 表 ， 如 图 14-3 所 示 。 
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鲁 查询 
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quartz 
J test 
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图 14-3 


user 表 脚 本 如 下 : 





# 创 建 表 


CREATE TABLE user ( 
"userid? int(10) DEFAULT NULL COMMENT ' 用 户 ID'， 
"username? varchar(10) DEFAULT NULL COMMENT ' 用 户 姓名 '， 
"sex? varchar(1) DEFAULT NULL COMMENT ' 性 别 '， 
"position?! varchar(20) DEFAULT NULL COMMENT ' 职 业 '， 
^age^ int(3) DEFAULT NULL COMMENT ' 年 龄 ' 

) ENGINE-InnoDB DEFAULT CHARSET-utf8; 

# 插 入 数据 

INSERT INTO user VALUES (1，' 陈 XX'，' 女 '，' 学 生 '，20); 

INSERT INTO user VALUES (2，' 王 XX'，' 男 '，' 工 程 师 '，30); 

INSERT INTO user VALUES (3，' 李 Xx'，' 女 '，' 医 生 '，40); 


product 表 脚 本 如 下 : 








# 创建 表 


CREATE TABLE product ( 
^productid^ int(10) DEFAULT NULL COMMENT "产品 ID' 
^productname^ varchar(20) DEFAULT NULL COMMENT ' 产 品名 称 ' 
) ENGINE-InnoDB DEFAULT CHARSET-utf8; 
# 插 入 数据 
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INSERT INTO product VALUES (1, 'T4'); 
INSERT INTO product VALUES (2, 'HBHW'); 
INSERT INTO product VALUES (3, "水 杯 ') ; 





orders 表 脚 本 如 下 : 
# 创 建 表 


CREATE TABLE orders ( 
"orderid' int(10) DEFAULT NULL COMMENT 'iJ/É ID', 
"userid? int(10) DEFAULT NULL COMMENT ' 用 户 ID'， 
^productid' int(10) DEFAULT NULL COMMENT ' 产 品 ID', 
"buytime? datetime DEFAULT NULL COMMENT ' 购 买 时 间 ' 
) ENGINE-InnoDB DEFAULT CHARSET-utf8; 
# 插 入 数据 
INSERT INTO orders VALUES (1, 1, 1, '2017-6-1 15:02:02'); 
INSERT INTO orders VALUES (2, 1, 2, '2017-6-2 15:02:22'); 
INSERT INTO orders VALUES (3, 1, 3, '2017-6-2 15:02:36"); 
INSERT INTO orders VALUES (4, 2, 1, '2017-6-6 15:02:52'); 
INSERT INTO orders VALUES (5, 3, 2, '2017-6-9 16:55:24'); 
INSERT INTO orders VALUES (6, 2, 2, '2017-7-14 14:01:36"); 


order all 表 脚 本 如 下 : 


# 创 建 表 

CREATE TABLE order all ( 
^userid' int(10) DEFAULT NULL COMMENT ' 用 户 ID', 
^username' varchar(10) DEFAULT NULL, 
^sex^ varchar(1) DEFAULT NULL, 
^position?' varchar(20) DEFAULT NULL, 
"age" int(3) DEFAULT NULL, 
"orderid' int(10) DEFAULT NULL COMMENT 'i[!/fÉ ID', 
^productid' int(10) DEFAULT NULL COMMENT ' 产 品 ID', 
"buytime' datetime DEFAULT NULL COMMENT ' 购 买 时 间 '， 
^productname^ varchar(20) DEFAULT NULL 

) ENGINE-InnoDB DEFAULT CHARSET-utf8; 


14.8.5 ”第 二 步 : 新 建 转换 


打开 Kettle 工作 平台 ， 新 建 一 个 转换 ， 取 名 为 orderktr， 如 图 14-4 所 示 。 
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图 144 
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14.3.6 ”第 三 步 : 新 建 数据 库 连接 


双击 DB 连接 ， 选 择 MySQL 数据 库 ， 输 入 主机 名 、 数 据 库 名 、 端 口 、 用 户 、 密 码 ， 再 点 击 数 
据 库 测试 ， 建 立 MySQL 连接 并 测试 成 功 ， 如 图 14-5 所 示 。 
| SX ElestTrans — (Xf EMesTransie2db (Z BestJob 


Be gia »isshxP9 GG SR E 
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图 14-5 


14.3.7 第 四 步 : 拖 动 表 输 入 组 件 


切换 到 核心 对 象 ， 在 “输入 ”文件 夹 下 面 拖 动 1 个 “ 表 输入 ”到 设计 区 域 ， 如 图 14-6 所 示 。 
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图 14-6 


14.3.8 8 mz»: 设置 属性 一 一 order R 


双击 “ 表 输 入 ”控件 设置 各 项 属性 ， 如 图 14-7 所 示 。 


DEFER [etl_test 


SQL 获取 SQL 查询 语句 


SELECT * FROM orders 
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图 14-7 
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14.39 第 六 步 : 设置 属性 一 一 user X 


再 拖 忠 一 个 “ 表 输 入 ”到 设计 区 域 并 设置 各 项 属性 ， 如 图 14-8 所 示 。 





步 台 名 称 CEE 
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确定 0) ][ mao J( meo ) 

















图 14-8 





14.3.10 第 七 步 : 拖 动 流 查询 并 设置 属性 一 一 流 查 询 


先 拖 忠 一 个 “ 流 查询 ”到 设计 区 域 , 再 设置 流 查 询 的 各 项 属性 ， 并 连接 两 个 表 输 入 ， 如 图 14-9 
所 示 。 
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14.3.11 第 八 步 : 设置 属性 一 一 product 表 


再 拖 忠 一 个 “ 表 输 入 ”到 设计 区 域 ， 并 设置 各 项 属性 ， 如 图 14-10 所 示 。 
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图 14-10 


14.3.12 ”第 九 步 : 连接 组 件 


连接 两 个 表 输 入 ， 如 图 14-11 所 示 。 
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图 14-11 


14.3.13 ”第 十 步 : 设置 属性 一 一 文本 输出 


拖 电 一 个 “文本 输出 ”到 设计 区 域 ， 并 设置 输出 属性 ， 如 图 14-12 所 示 。 
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图 14-12 


14.3.14 ”最 后 一 步 : 运行 程序 并 查看 结果 


保存 模型 后 , 点 击 运行 ktr 多 按钮 。 如 果 出 现 如 图 14-13 所 示 的 界面 , 就 代表 模型 运行 成 功 了 。 
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图 14-13 


如 果 \Kettle 根 目 录 下 面 有 order. all.txt 数据 文件 , 就 代表 已 经 把 原始 数据 经 过 ETL 过 程 后 的 数 
据 存在 txt 文件 里 面 ，ktr 也 就 顺利 完成 了 ， 如 图 14-14 所 示 。 


SUHF) SHEE HAO BEV FAH) 
userid|username |sex | position|age|orderid|productid|buytime |productname 
陈 XX| 女 | 学 生 |2 2017/06/01 1 000000000 | 手机 
陈 XX £ 2 2017/06/02 1: . 000000000 | 电脑 
2 2017/06/02 1 . 000000000 水杯 


1|2017/06/06 15 2. 000000000 | 手机 
2 2017/06/09 16:55:24. 000000000| 电脑 - 
2/2017/07/14 14:01:36. 000000000 | F& li 





图 14-14 
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14.4 Kettle 调度 和 命令 


14.4.1 通过 页 面 调 度 


S801 打开 Kettle TA, H "Scb" — "anm" — "fp" , deg "START" “WA 
业 ” 到 设计 区 域 ， 如 图 14-15 所 示 。 
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图 14-15 
5:802 / 设置 作业 Job 的 属性 ， 如 图 14-16 所 示 。 
pura c Lure 
作业 项 名 称 : | 调用 作业 
作业 名 称 : | e [zs] 
WEAR: | $| 
作业 文件 名 : [Snternal,Job.Fiename ,Directory3/ 作 业 .kb 9 (ex) 
日 志 设 定 镇 调 作业 路 径 ， 可 用 变量 ，CTRL+ALT+SPACE 查 看 变量 情况 
指定 日 志文 件 ? E] 
追加 日 志文 人 
[ $ 
[ wass 
RH - 
将 上 一 结果 作为 参数 ? E 
对 每 个 输入 行 执行 一 次 ? |” 
远程 从 服务 器 | f 
FRO — - 
22 参数 
1 
[mro | [| mio 























图 14-16 


5m03/ 作业 的 组 件 调用 转换 组 件 ， 如 图 14-17 所 示 。 
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— 
P START 

di DUMMY 

EA Abort job 

Eg Display Msgbox Info 


Š Job 
B: Ping a host 
f Success 





图 14-17 


步骤 044 设置 转换 的 属性 ， 如 图 14-18 所 示 。 











[ES = 上 号 -六 
job 名 称 : [Transformation 1 
转换 名 称 : e xe 
资源 库 路 径 : e 
PASHE: [sperant Renene Dreco [PE x] 
设置 日 志 被 调转 换 路 径 
指定 日 志文 件 ; 回 Mo 
E e 
- $ 
e 
B 
EA = 
复制 以 前 结果 到 戎 数 ? 回 ] 
执行 每 一 个 输入 行 ? I 
在 执行 前 清除 结果 行列 表 ? [71 
在 执行 前 清除 结果 文件 列表 [E] 
在 集群 模式 下 运行 这 个 转换 ? 回 
Remote slave server > $| 
Fit: 
= ^ 参数 








14.4. ”通过 脚本 调度 


Kettle 程序 启动 分 两 种 : 一 种 是 作业 ， 另 一 种 是 转换 。 
在 Linux 系统 下 , 作业 调用 启动 脚本 是 “kitchen.sh”, 转换 调用 启动 脚本 是 “pan.sh”, kitchen.sh 
Cspan.sh) 配置 说 明 如 图 14-19 所 示 ， 内 存 值 设 置 如 图 14-20 所 示 。 


export JAVA HUME-/hOme/C&ttsort/jdk 6/jz26/bin 
export PATH-/home/cattsoft/jdk1.5.0 PATH 
BASEDIR-'dirname $0° Ur EE 省 

DE T 


cd sBASEDIR š ; 
java -version 
























图 14-19 
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$ ** Set java runtime options ** 
# ** Change 128m to higher values in case you run out of memory. ** 
dORRRRRRRRRRRRERRRRRRRERERERRRRRERERRRERERRRERARRARARRRRERERRRERARARARÉ 


if [ -z "$JAVAMAXMEM" ]; then 
AVAMAXMEM-DSTTU] > AFERE : 建议 大 于 1024 , SRI B rri 





图 14-20 


Windows 系统 下 ， 作 业 调 用 启动 脚本 是 “kitchen.bat”， 转 换 调用 启动 脚本 是 “pan.bat” 
kitchen.bat(span.bat) 配置 说 明 如 图 14-21 所 示 ， 内 存 值 设置 如 图 14-22 所 示 。 


d RERRRRRRRRRRRARARRRRARRRRRARARARARARRARARRARRRRARARAA 


4 ** Make sure we use the correct J2SE version! "x 


** Uncomment the PATH line in case of trouble aa 
Mode deed dee dee dee de de de de e de de de de de e d e e e e e 


TIRER, 默认 使 用 系统 值 
set 有 


ORRRRRRRRRRRRRRRRRRRRRERRRRRRRRRRRRRRERARRARRRRRRRERRRRRARRRRRRRRRRR ARRA 


4 ** Set java runtime options ** 


4 ** Change 512m to higher values in case you run cut of memory. ** 
4 RERRRERRRRRRRRERERRRARRRRRRRERRARRRRRRARRARRERARRARARRERRRARR ERRARE ARA 


内 存 值 设置 
OPT= [Xmx512m fcp &CLASSPATH& -Djava.library.path=libswt\win32\ -DKETILE HOMEE"AK] 





图 1422 
在 Linux 系统 下 的 作业 启动 脚本 写法 如 图 14-23 所 示 。 


LAN | CN.GB18030 
:| export LANG 


kill -9 $PID 
echo PID 


























chen [TIIE Tr a de IRREREN E VAS, [3cb-rjb][Tevel Basic][TogfiTe Er Vcattsort METTRE UR E css VIS 163. 107 
| pause 
* sucus Besten arem 
图 1424 


转换 调动 脚本 写法 与 启动 脚本 的 写法 基本 一 样 ， 就 是 pan.sh/pan.bat 的 区 别 ， 如 图 14-25 所 
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IBxDRE SEE 

ca —— > 当前 目录 路 径 

cd E:VsoftwareYpdi-cpen-3.1.0-826 转换 文件 路 径 

|pan /file &softPathiVsrcAcheck WIFI /level Basic /logfile $softPatht$Xlog.log 








图 1425 


14.5 Kettle 使 用 原则 


在 实际 操作 过 程 中 ，Kettle 使 用 原则 如 下 : 

e 可 以 使 用 SQL 来 做 的 一 些 操作 尽量 用 SQL, group. merge. stream lookup. split field 操作 都 
是 比较 慢 的 ， 要 想 办 法 避免 。 

o 尽量 避免 使 用 update. delete 操作 ， 尤 其 是 update， 可 以 把 update 转换 为 先 delete 再 insert, 

° 尽量 不 要 用 Kettle 的 calculate 计算 步 又， 能 用 数据 库 本 身 的 SQL 就 用 SQL, 不 能 用 SQL 就 
尽量 想 办 法 用 procedure 存储 过 程 ， 实 在 不 行 才 是 calculate。 

€ 能 使 用 truncate table 的 时 候 就 不 要 使 用 delete all row 这 种 类 似 SQL. 

° 尽量 提高 批 处 理 的 commit size; 

”如果 删除 操作 是 基于 某 一 个 分 区 的 ， 就 不 要 使 用 delete row 这 种 方式 ， 直 接 truncate 分 区 

( ALTER TABLE tablename TRUNCATE PARTITION PART 1) . 


第 15 章 
大 规模 数据 处 理 计算 引擎 Spark 


Spark 是 加 州 大 学 伯克利 分 校 AMP 实验 室 (Algorithms Machines and People Lab) 开发 的 通用 
内 存 并 行 计算 框架 。Spark 在 2013 年 6 月 进入 Apache 成 为 孵化 项 目 ，8 个 月 后 成 为 Apache 顶级 项 
H, 速度 之 快 足见 其 过 人 之 处 , Spark 以 其 先进 的 设计 理念 , 迅速 成 为 社区 的 热门 项 目 , 围绕 着 Spark 
推出 了 Spark SQL. Spark Streaming、MLlib 和 GraphX 等 组 件 ， 这些 组 件 逐 渐 形 成 大 数据 处 理 一 站 
式 解 决 平台 。 从 各 方面 报道 来 看 Spark 是 希望 替代 Hadoop 在 大 数据 中 的 地 位 ， 成 为 大 数据 处 理 的 
主流 标准 。 

Spark 使 用 Scala 语言 进行 实现 ，Scala 是 一 种 面向 对 象 、 函 数 式 编程 语言 。Scala 的 语法 非常 
简洁 ， 同 样 的 功能 ， 如 果 使 用 Java 实现 ， 可 能 需要 100 行 ， 而 使 用 Scala 可 能 就 只 要 10 行 ， 代 码 
高 度 简 洁 。 它 具有 运行 速度 快 、 易 用 性 好 、 通 用 性 强 和 随处 运行 等 特点 。 














15.1 Spark 简介 


15.4.1 使 用 背景 


Hadoop 常用 于 解决 高 吞吐 、 批 量 处 理 的 业务 场景 ， 例 如 离线 计算 结果 用 于 浏览 量 统计 。 如 果 
需要 实时 查看 浏览 量 统计 信息 ，Hadoop 的 MapReduce 的 框架 显然 无 法 处 理 实时 计算 。 而 Spark 通 
过 内 存 计算 能 力 极 大 地 提高 了 大 数据 处 理 速度 ， 满 足 了 实时 场景 的 需要 。 此 外 ，Spark 还 支持 SQL 
查询 、 流 计算 、 图 计算 、 机 器 学 习 等 。 通 过 对 Java. Python. Scala. R 等 语言 的 支持 ， 极 大 地 方便 
了 用 户 的 使 用 。 
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15.1.2. Spark 特点 


Spark 看 到 MapReduce 框架 存在 的 问题 ， 对 MapReduce 做 了 大 量 优化 ， 总 结 如 下 : 


”快速 处 理 能 力 : 随 着 实时 大 数据 应 用 越 来 越 多 ，Hadoop 作为 离线 的 高 吞吐 、 低 响应 框架 已 不 
能 满足 这 类 需求 。Hadoop 的 MapReduce 计算 框架 的 Job 将 中 间 输 出 和 结果 存储 在 HDFS F, 
读 写 HDFS 造成 磁盘 IO RAMA. Spark 允许 将 中 间 输 出 和 结果 存储 在 内 存 中 ， 节 省 了 大 量 
的 磁盘 IO。 同时 Spark 自身 的 DAG 执行 引擎 也 支持 数据 在 内 存 中 的 计算 ，Spark 官网 声称 其 
性 能 比 Hadoop 快 上 百倍 ， 即 便 是 内 存 不 足 需要 磁盘 IJO， 其 速度 也 是 Hadoop 的 10 倍 以 上 。 

e “易于 使 用 : Spark 现在 支持 Java、Scala、Python 和 及 等 语言 编写 应 用 程序 ， 大 大 降低 了 使 用 
者 的 门槛 。 自 带 了 80 多 个 高 等 级 操作 符 ， 允 许 在 Scala、Python、R 的 shell 中 进行 交互 式 查 
询 。 

e ”支持 查询 : Spark 支持 SQL A Hive SQL 对 数据 查询 。 

e 支持 流 式 计算 。 与 MapReduce 只 能 处 理 离线 数据 相 比 ，Spark 还 支持 实时 的 流 计 算 。Spark 
依赖 Spark Streaming 对 数据 进行 实时 的 处 理 ， 其 流 式 处 理 能 力 还 要 强 于 Storm。 

e 可 用 性 高 ; Spark 自身 实现 了 Standalone 部 署 模式 ， 此 模式 下 没有 单 点 故障 问题 。 这 是 借助 
ZooKeeper 实现 的 ， 思 想 类 似 于 HBase Master 单 点 故障 解决 方案 。 此 模式 完全 可 以 使 用 其 他 
集群 管理 器 替换 ， 比 如 Spark on YARN. 

° 丰富 的 数据 源 支持 : Spark 除了 可 以 访问 操作 系统 自身 的 文件 系统 和 HDFS， 还 可 以 访问 
Cassandra. HBase. Hive 以 及 任何 Hadoop 的 数据 源 。 这 极 大 地 方便 了 已 经 使 用 HDFS、HBase 
的 用 户 顺利 迁移 到 Spark. 


15.2 Spark 架构 设计 


15.2.1 Spark 整体 架构 


Spark 整体 的 架构 图 如 图 15-1 所 示 。 
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© Spark 提供 了 多 种 高 级 工具 ，Spark SQL 应 用 于 即席 查询 (Ad-hoc query) Spark Streaming 
应 用 于 流 式 计算 ，MLlib 应 用 于 机 器 学 习 ，GraphX 应 用 于 图 处 理 。 

€ Spark 可 以 基于 自 带 的 Standalone 集群 管理 器 独立 运行 ， 也 可 以 部 署 在 Apache Mesos 和 
Hadoop YARN 等 集群 管理 器 上 运行 。 

* Spark 可 以 访问 存储 在 HDFS、HBase、Cassandra、Amazon S3、 本 地 文件 系统 等 上 面 的 数 
W, Spark 支持 文本 文件 、 序 列 文件 以 及 任何 Hadoop 的 InputFormat。 


15.2.2 ”关键 运算 组 件 


Spark 的 核心 组 件 包 括 RDD〔 弹 性 分 布 式 数据 集 ) ~ Scheduler (调度) 、Storage HERK) ~ 
Shuffle( 重 组) 四 部 分 : 
RDD X Spark 最 核心 最 精 散 的 部 分 ，Spark 将 所 有 数据 都 抽象 成 RDD。 
Scheduler 是 Spark 的 调度 机 制 ， 分 为 DAGScheduler 和 TaskScheduler。 
Storage 模块 主要 管理 缓存 后 的 RDD、shuffle 中 间 结 果 数 据 和 broadcast 广播 数据 。 
Shuffle 分 为 Hash 方式 和 Sort 方式 ， 两 种 方式 的 Shuffle 中 间 数 据 都 写 入 本 地 磁盘 。 





Spark 流程 图 如 图 15-2 所 示 。 


RDD Graph 
Worker 


|Executor Cache 
| A | m 
Scheduler Hl Task Task 


t 7 
— <—>| clusterManager É — 
Block Tracker €—— NG Worker _ k 


| fExecutor| cache 






val sc = new S 
val rdd = sc.te: 
rdd.map().filter() 


4 





Task Task 


Shuffler Tracker _— 


图 15-2 


15.2.3 RDD 介绍 


RDD 是 Spark 的 基石 ， 也 是 Spark 的 灵魂 。RDD 是 容错 的 分 布 式 数据 集 ， 是 只 读 的 分 区 记录 
iA A RDD 有 5 个 主要 的 属性 : 

e 一 组 分 片 (Partition ) : 数据 集 的 最 基本 组 成 单位 。 

o 一 个 计算 每 个 分 片 的 函数 : 对 于 给 定 的 数据 集 ， 需 要 做 哪些 计算 。 

* 依赖 (Dependencies ) : RDD 的 依赖 关系 ， 描 述 了 RDD 之 间 的 血缘 关系 。 
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e tz X (Preferred Locations ) : HDFS 的 block 的 所 在 位 置 应 该 是 优先 计算 的 位 置 。 
© 区 分 (Partitioner) : key-value 型 的 RDD 是 根据 哈 希 来 分 区 ， 控 制 key 分 到 哪个 Reduce。 





#RDD 代码 
rddl= sparkContext.textFile ("hdfs://..") 








上 面 代码 中 rddl 是 一 个 MappedRDD, iZ RDD 是 从 外 部 文件 创建 的 , 可 以 传 入 分 片 个 数 参数 ， 
否则 默认 采用 defaultMinPartitions。 


#RDD 代码 
rdd2- rddl.filter( .startsWith( "ERROR")) 





rdd2 是 一 个 FilteredRDD， 是 从 rddl 这 个 RDD 衍生 〈 即 计算 ) 得 到 的 。rddl 是 rdd2 的 父 节 
点 ， 即 rdd2 依赖 rddl。filter 是 RDD 的 操作 ， 即 每 个 分 片 需要 计算 的 函数 。 


15.2.4 RDD 操作 


作用 于 RDD 上 的 Operation 操作 分 为 转换 CTransformantion) 和 动作 (Action) 。Spark 中 的 
所 有 “转换 ”都 是 惰性 的 ， 在 执行 “转换 ”操作 ， 并 不 会 提交 Job， 只 有 在 执行 “动作 ”操作 ， 所 
有 Operation 操作 才 会 被 提交 到 cluster 集群 中 真正 地 被 执行 ， 这 样 可 以 大 大 提升 系统 的 性 能 。 

RDD 拥有 的 操作 比 MR 丰富 得 多 ， 不 仅仅 包括 Map、Reduce 操作 ， 还 包括 filter、sort、join、 
save. count 等 操作 ， 所 以 Spark LE MR 更 容易 更 方便 完成 更 复杂 的 任务 。 详 细 的 “转换 ”内 容 如 
表 15-1 所 示 。 





表 15-1 Transformation 具体 内 容 
函数 说 明 
map(func) 返回 一 个 新 的 分 布 式 数据 集 ， 由 每 个 原 元 素 经 过 func 函数 转换 后 组 成 
filter(func) 返回 一 个 新 的 数据 集 ， 由 经 过 func 函数 后 返回 值 为 true 的 原 元 素 组 成 








类 似 于 map， 但 是 每 一 个 输入 元 素 ， 会 被 映射 为 0 到 多 个 输出 元 素 〈 因 此 ， 
func 函数 的 返回 值 是 一 个 Seq， 而 不 是 单一 元 素 ) 
类 似 于 map， 但 是 每 一 个 输入 元 素 ， 会 被 映射 为 0 到 多 个 输出 元 素 〈 因 此 ， 
func 函数 的 返回 值 是 一 个 Seq， 而 不 是 单一 元 素 ) 


flatMap(func) 





flatMap(func) 


sample(withReplacement, frac, 
seed) 

union(otherDataset) 返回 一 个 新 的 数据 集 ， 由 原 数据 集 和 参数 联合 而 成 

在 一 个 由 (KV) 对 组 成 的 数据 集 上 调用 ， 返 回 一 个 〈K,Seq[V]) 对 的 数据 集 。 
groupByKey([numTasks]) 注意 : 默认 情况 下 ， 使 用 8 个 并 行 任务 进行 分 组 ， 你 可 以 传 入 numTask 可 选 
参数 ， 根 据 数据 量 设置 不 同 数目 的 Task 

在 一 个 CK,V) 对 的 数据 集 上 使 用 ， 返 回 一 个 CK, VO 对 的 数据 集 ，key 相同 的 
reduceByKey(func[numTasks] | 值 ， 都 被 使 用 指定 的 reduce 函数 聚合 到 一 起 。 和 groupbykey 类 似 ， 任 务 的 个 
数 是 可 以 通过 第 二 个 可 选 参数 来 配置 的 。 


根据 给 定 的 随机 种 子 seed， 随 机 抽样 出 数量 为 frac 的 数据 
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( 续 表 ) 
函数 说 明 





join(otherDataset, [numTasks]) 


在 类 型 为 (K,V) 和 K,W) 类 型 的 数据 集 上 调用 ， 返 回 一 个 (K,(V,W)) 对 ， 每 
个 key 中 的 所 有 元 素 都 在 一 起 的 数据 集 





groupWith(otherDataset, [num 
Tasks]) 











在 类 型 为 (K,V) 和 (K,W) 类 型 的 数据 集 上 调用 ,返回 一 个 数据 集 ， 组 成 元 素 为 
(K, Seq[V], Seq[W]) Tuples。 这 个 操作 在 其 他 框架 ， 称 为 CoGroup 











第 卡 尔 积 。 但 在 数据 集 T 和 U 上 调用 时 ， 返 回 一 个 (LU》 对 的 数据 集 ， 所 有 








cartesian(otherDataset) 元 素 交 互 进行 笛 卡 尔 积 。 
类 似 于 map， 但 是 每 一 个 输入 元 素 ， 会 被 映射 为 0 到 多 个 输出 元 素 〈 因 此 ， 
flatMap(func) 





func 函数 的 返回 值 是 一 个 Seq， 而 不 是 单一 元 素 ) 








详细 的 “动作 ”的 内 容 如 表 15-2 所 示 。 


[as s  — uem 


reduce(func) 


collect() 


count() 


take(n) 


first) 


saveAsTextFile(path) 


表 15-2. Action 具体 内 容 


通过 函数 func 聚集 数据 集中 的 所 有 元 素 。func 函数 接受 2 个 参数 ,返回 一 个 
值 。 这 个 函数 必须 是 关联 性 的 ， 确 保 可 以 被 正确 的 并 发 执行 
在 Driver 的 程序 中 ， 以 数组 的 形式 ， 返 回 数据 集 的 所 有 元 素 。 这 通常 会 在 使 
用 filter 或 者 其 他 操作 后 ， 返 回 一 个 足够 小 的 数据 子 集 再 使 用 ， 直 接 将 整个 
RDD 集 Collect 返回 ， 很 可 能 会 让 Driver 程序 OOM 

返回 数据 集 的 元 素 个 数 

返回 一 个 数组 ， 由 数据 集 的 前 n 个 元 素 组 成 。 注 意 ， 这 个 操作 目前 并 非 在 多 
个 节点 上 ， 并 行 执行 ， 而 是 Driver 程序 所 在 机 器 ， 单 机 计算 所 有 的 元 素 
(Gateway 的 内 存 压 力 会 增 大 ， 需 要 谨慎 使 用 ) 

返回 数据 集 的 第 一 个 元 素 ， 类 似 于 take(1) 

将 数据 集 的 元 素 ， 以 textfile 的 形式 ,保存 到 本 地 文件 系统 、HDFS 或 者 任何 
其 他 Hadoop 支持 的 文件 系统 。Spark 将 会 调用 每 个 元 素 的 toString 方法 ， 并 
将 它 转换 为 文件 中 的 一 行文 本 











saveAsSequenceFile(path) 


将 数据 集 的 元 素 ， 以 sequencefile 的 格式 ， 保 存 到 指定 的 目录 下 、 本 地 系统 、 
HDFS 或 者 任何 其 他 Hadoop 支持 的 文件 系统 。 RDD 的 元 素 必须 由 key-value 
对 组 成 ， 并 都 实现 了 Hadoop 的 Writable 接口 ， 或 隐 式 可 以 转换 为 Writable 
(Spark 包括 了 基本 类 型 的 转换 ， 例 如 Int, Double. String 等 等 ) 





foreach(func) 





在 数据 集 的 每 一 个 元 素 上 , 运行 函数 func, 这 通常 用 于 更 新 一 个 累加 器 变量 ， 
或 者 和 外 部 存储 系统 做 交互 





15.2.5 RDD 依赖 关系 


RDD 只 能 基于 在 稳定 物理 存储 中 的 数据 集 和 其 他 已 有 的 RDD 上 执行 确定 性 操作 来 创建 。 能 
从 其 他 RDD 通过 确定 操作 创建 新 的 RDD 的 原因 是 ，RDD 含有 从 其 他 RDD 衍生 ( 即 计 算 ) 出 本 
RDD 的 相关 信息 。Dependency 代表 了 RDD 之 间 的 依赖 关系 ， 即 血缘 (Lineage) ， 这 个 依赖 关系 
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分 为 窄 依赖 和 宽 依赖 。 
窄 依赖 : 


° 一 个 父 RDD 最 多 被 一 个 子 RDD 用 。 
° 在 一 个 集群 节点 上 管道 式 执行 。 
* ”比如 map、filter、union 等 。 


宽 依赖 : 
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° 指 子 RDD 的 分 区 依赖 于 父 RDD 的 所 有 分 区 ， 这 是 因为 shuffle 类 操作 要 求 所 有 父 分 区 可 用 。 


© 比如 groupByKey、reduceByKey、sort、partitionBy 等 。 


窄 依赖 和 宽 依赖 的 分 类 如 图 15-3 所 示 。 


窄 依赖 
一 一 
mm |= 
map, filter group by key 


join with input 
co-partitioned 
union join with input not 
co-partitioned 


图 15-3 


15.2.6 RDD 源码 详解 


本 小 节 用 一 个 实例 来 讲解 ， 我 们 先 给 出 一 段 常 用 的 示例 代码 ， 在 代码 中 会 解释 常用 的 RDD。 





// 读 取 输 入 参数 对 应 的 路 径 作为 HDFS 文件 

val hdfsFile = sc.textFile(args(0)) 

// 以 回 车 换行 符 ， 取 出 数据 

val flatMapRdd = hdfsFile.flatMap(s => s.split("Nt")) 
// 过 滤 出 数据 长 度 为 2 的 数据 


val filterRdd = flatMapRdd.filter( .length == 2) 
// 第 一 列 的 数据 为 分 析 数 据 

val mapRdd = filterRdd.map(word => (word, 1)) 

// 对 数据 进行 汇总 ， 统 计 出 个 数 


val reduce = mapRdd.reduceByKey(_ + ) 
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这 里 涉及 很 多 个 RDD,textFile 是 一 个 HadoopRDD 经 过 map 后 的 MappredRDD, 经 过 flatMap 


是 一 个 FlatMappedRDD, 经 过 filter 方法 之 后 生成 了 一 个 FilteredRDD, 经 过 map 函数 之 后 ， 
变 成 一 个 MappedRDD， 最 后 经 过 reduceByKey。 





15.2.7 Scheduler 


Scheduler 模块 作为 Spark 最 核心 的 模块 之 一 ， 充 分 体现 了 Spark 与 MapReduce 的 不 同 之 处 ， 
体现 了 Spark DAG 思想 的 精巧 和 设计 的 优雅 。 

Scheduler 模块 主要 分 为 两 大 部 分 ， 即 DAGScheduler 和 TaskScheduler。 整 体 流程 图 如 图 15-4 
所 示 。 








Transformation 最 后 Adtion 















“ 交 给 DAGScheduler 处 理 。 











图 15-4 


15.2.8 Storage 


Storage 存储 模块 主要 分 为 两 层 : 


e 通信 和 层 storage 模块 ， 采 用 的 是 master-slave 结构 来 实现 通信 层 ，master 和 slave 之 间 传 输 控 制 
信息 、 状 态 信息 ， 这 些 都 是 通过 通信 层 来 实现 的 。 

° 存储 层 storage 模块 , 需要 把 数据 存储 到 disk 或 是 memory 上 面 ,有 可 能 还 需 replicate 到 远 端 ， 
这 都 是 由 存储 层 来 实现 和 提供 相应 接口 。 


Storage 存储 模块 提供 了 统一 的 操作 类 BlockManager， 外 部 类 与 Storage 模块 打交道 都 需要 通 
过 调用 BlockManager 相应 接口 来 实现 。Storage 模块 存 取 的 最 小 单位 是 数据 块 (Block) ，Block 与 
RDD 中 的 Partition 一 一 对 应 ， 所 以 所 有 的 转换 或 动作 操作 最 终 都 是 对 Block 进行 操作 。 如 图 15-5 
所 示 ， 表 示 数 据 写 入 的 过 程 分 析 。 
(1) RDD 的 iterator 调用 CacheManager 的 getOrCompute 函数 。 
(2) CacheManager 调用 BlockManager 的 put 接口 来 写 入 数据 。 
(3) BlockManager 根据 输入 的 storageLevel 来 确定 是 写 内 存 还 是 写 硬盘 。 
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(4) 通知 BlockManagerMaster 有 新 的 数据 写 入 ， 在 BlockManagerMaster 中 保存 元 数据 。 
C5) 将 写 入 的 数据 与 其 他 slave worker 进行 同步 。 





Driver 







2 


b 











15.2.9 Shuffle 


Shuffle 重组 中 Map 任务 产生 的 结果 ， 会 根据 所 设置 的 partitioner 算法 填充 到 当前 执行 任务 所 
在 机 器 的 每 个 桶 中 。Reduce 任务 启动 时 , 会 根据 任务 的 ID、 所 依赖 的 Map 任务 ID 以 及 MapStatus 
从 远 端 或 本 地 的 BlockManager 获取 相应 的 数据 作为 输入 进行 处 理 .Shuffle 数据 必须 持久 化 到 磁盘 ， 
不 能 缓存 在 内 存 。 

表示 Hash 的 方式 如 图 15-6 所 示 。 





Shuffle 
Write 






Shuffle 
fetch 


Hash 的 方式 的 特点 如 下 : 


shuffle 不 排序 ， 效 率 高 。 

生成 MXR 个 shuffle 中 间 文 件 ， 一 个 分 片 一 个 文件 。 

产生 和 生成 这 些 中 间 文件 会 产生 大 量 的 随机 IO， 磁盘 效 率 低 。 
shuffle 时 需要 全 部 数据 都 放 在 内 存 ， 对 内 存 消耗 大 。 

适合 数据 量 能 全 部 放 到 内 存 ，Reduce 操作 不 需要 排序 的 场景 。 
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表示 Sort 的 方式 如 图 15-7 所 示 。 

























Shuffle 
Write 
Shuffle 

fetch 


Sort 的 方式 的 特点 如 下 : 

* shuffle 需要 排序 。 

° 生成 M 个 shuffle 中 间 数 据 文件 ， 一 个 Map 所 有 分 片 放 到 一 个 数据 文件 中 ， 外 加 一 个 索引 文 
件 记录 每 个 分 片 在 数据 文件 中 的 偏 移 量 。 

e shuffle 能 够 借助 磁盘 ( 外 部 排序 ) 处 理 庞大 的 数据 集 。 

@ 数据 量 大 于 内 存 时 只 能 使 用 Sort 方式 ， 也 适用 于 Reduce 操作 需要 排序 的 场景 。 


15.3 Spark 编程 实例 


15.3.1 实例 概述 


上 传 原始 数据 ， 编 辑 Scala 语言 ， 提 交 到 Spark 服务 器 做 计算 。 业 务 的 功能 表示 是 统计 每 个 词 
出 现 的 次 数 ， 并 把 统计 的 结果 在 命令 窗口 打印 出 来 。 


15.3.2 第 一 步 : 编辑 数据 文件 


编辑 要 分 析 的 原始 数据 文件 ， 如 图 15-8 所 示 。 


[root@hadoop spark]# vi examplel.txt 





图 15-8 


把 数据 上 传 到 HDFS 中 ， 如 图 15-9 所 示 。 
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[root@hadoop spark]£ hadoop fs -put examplel.txt /input. spark 


[root@hadoop 
[root@hadoop spark]£& hadoop fs -1s /input_spark 


root supergroup 12 2016-04-25 14:15 /input spark/exampleil.txt 


图 15-9 





15.8.3 ”第 二 步 : 编写 程序 


在 Scala IDE 中 编写 Scala 代码 ， 并 生成 class 文件 ， 如 图 15-10 所 示 。 





File Edit Refactor Navigate Search Project Run Window Help 





Lc è Hor «»-0-Q-q34- ETE Quick Access || m| 都 Scala Wava 
H Package Explorer 5 A [8 exanplel. scala FOR Soutine : 
B% package spark_class1 BLAN oN 
First. Project : 


sasic * import org.apache.spark.SparkConfi i spark clase 


* hadoop class1 ParKRSERHR, Sois eem xm, 6 TH © examplet 
* scala class? 





object examplei ( 


def msintargs: ter ring) £ 
& scala_class3 
8 ica ieai if (args length < 1) £ 
s spark class1 System.err.println("Usage: <file>") 
Œ JRE System Library Ua System.exit(:) 


= Scala Library [2.104] 
» Referenced Libraries 









v Sparktonf C) setAoplsme ("hordcount") „setMaster("1ocal") 
ew SparkContext(con*) 








hive lib 
I me ib ;textFile(args( )) 
MR lib ieri split 人 ")).map(( , :)).reduceByKey( + ).collect.foreach(println) 
spark lib sc. stop 
à ScalalnAction " 


} 


图 15-10 


15.3.4 第 三 步 : 上 传 JAR 文件 


把 对 应 的 代码 导出 ， 导 出 成 JAR 文件 ， 如 图 15-11 所 示 。 
可 Java - First_Project/src/spark_class1/examplel.scala - Scale IDE 


tor Refactor Navigate Search Project Run Window Help 





File Edit Sourc 





m G = 





lš Package Expl. 





k Select 
a 35 First Project. 


ax] port resources into a JAR file on the local file system. 
+ erc 


Œ hadoop classi i 
g scala das? im Select an export destination: 
# scala_class3 F cobi type iter text 
i8 scala class ‘ajava 
a $ spark class L^ JAR file 
& Copy of SogouRest S Javadoc 
E CountSample.scala Runnable JAR file 
i& example? scala - = Plug-in Development 
E SogouResultscala = Run/Debug 





E WordCount.scala 
= JRE System Library [Javi [= 
= Scala Library [2.10.4] F 
= Referenced Libraries 
= hive lib } 
slib 


Cancel 





图 15-11 
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把 JAR 文件 上 传 到 服务 器 上 ， 如 图 15-12 所 示 。 





SHE) 编辑 EE】 EAM 传输 (D BARS 书签 (B) HWH 有 新 版 了 ! (N) 




















RA mE zn 
主机 (HD): 10.1.104.127 MASU): root EBW: eseese | 0P): 22 快速 连 接 (Q) | ~ 
状态 ;Listing directory /root/spark ^ 
列 出 /root/spark 的 目录 成 功 v 
本 地 站 点 : DAeclipseworkspacel ` | 运 可 站 点 |/rooyspark 
readme = P snappy-java-104.1jar 
4-j. workspace &-] spark 
Ln M TT ETTA d 
文件 名 ^ | 文件 名 文件 大 小 XE ^ 
hadoop 
rbds_micro_shop Sogou 文件 3 
ScalalnAction Bibbbb;jar 87,850,145 360A 
aaaaaaaaa.txt Bexample1 jar 5,535 3608 
exampleljar example1.bxt 12 文本 3 
example2 txt example2.txt 924 文本 了 
B$ examole3.iar ~ [B8 examole3.iar 9.629 360A * 
< zR z 
选择 了 1 个 文件 。 大 小 总 共 : 5535 FÉ 选择 了 1 个 文件 。 大 小 总 共 : 5,535 字 节 
服务 器 /本 地 文件 方向 远 得 文件 大 小 优先 状态 
图 15-12 


15.8.5 ”第 四 步 : 远程 执行 程序 


SSH 登录 到 Spark 服务 器 ， 使 用 spark-submit 命令 ， 执 行 对 应 的 命令 ， 脚 本 如 下 : 


# 执 行 的 spark 脚本 
spark-submit --master spark://127.0.0.1:7077 --class 


spark classl.examplel --executor-memory 256M examplel.jar 
hdfs://127.0.0.1:8020/input spark/examplel.txt 


操作 界面 如 图 15-13 所 示 。 











E === ELI 
XF) 编辑 (E) FEV 选项 (0) 传 给 (D) 脚本 (5) 工具 (D SOW) 帮助 (H) 


JIUK n aud 2232 eB ; 





ark: //hadoop: 


rk/examplel.txt 
Changing view acls to: 


16/04/25 14:18:40 INFO scheduler.DAGScheduler: Job 0 finished: collect at 
Çd,1) 
2 





16/04/25 14:18:40 INFO handler.ContextHandler: stopped o.e.j.s.Servletcon 


图 15-14 
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对 比 一 下 原始 的 数据 ， 如 图 15-15 所 示 ， 可 以 发 现 : a 出 现 2 次 ，b 出 现 2 X, c 出 现 1 次 , d 
出 现 1 次 ， 说 明 输 出 的 结果 是 正确 的 。 
[root&hadoop spark]£ hadoop fs -cat /input spark/examplel.txt 





a 
b 
c 
d 
a 
b 


图 15-15 


15.4 Spark SQL 实战 


15.4.1 ”例子 概述 


使 用 Scala 语言 分 析 输 入 的 JSON 原始 数据 ， 通 过 Spark SQL 脚本 过 滤 数 据 ， 输 出 结果 ， 并 在 
窗口 打印 出 来 。 


15.4.0 ”第 一 步 : 编辑 数据 文件 


编辑 数据 ， 上 传 数 据 文件 到 HDFS， 脚 本 如 下 : 
# 代 码 


$vi people.json 
$cat people.json 
$hadoop fs -put people.json /input spark 
$hadoop fs -cat /input spark/people.json 










操作 界面 如 图 15-16 所 示 。 


[root@hadoop spark]£ vi people.json 


[ 
» 
j 


"name" :"Carry"," 
rootGhadoop spark]# hadoop fs -put people.json /input spark 
rootGhadoop spark]£ hadoop fs -cat /input. spark/people.json 





[ 
[ 
r 
i 
i 
i 
i 
i 


图 15-16 
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15.4.3 IF: 编写 代码 


在 Scala IDE 工具 中 编写 Spark 代码 ， 并 生成 class 文件 ， 如 图 15-17 所 示 。 





























图 15-17 


15.44 第 三 步 : 上 传 文件 到 服务 器 


File Edit Refactor Navigate Search Project Scala Run Window Help 
sca Els EIDEM Quick Access 
= Package Explorer T Be scala = 
< 3$ HADOOP Project port org.apache.spark.SparkContext ^ 
«hsc inport org.spache.spark.SparkContext. . 
# hadoop classi trjson/stehik., SPARK SQL 二 
i$ scala _class2 geriet emer d 
pisi def main(args: Array[String]) ( 
bas if (args.length < 1) { 
scala_class4 IPs mist 
i$ spark class! println("Usage: <file>") 
+ i spark class? Systen.exit(:) 
E examplel java } 
examplel.scala E val = new SparkConf() .setAppName("example21").setHaster("local") 
š 1 l sc = new SparkContext(conf) 
5 example21 scala | D 
à» example22 scala ] nente T k sal, SglContext (oc) 
m JRE System Library |JavaSE -1 | j 
= Scala Library [2.104] Ü q ve teenagers sq1( “SELECT * FROM jsonTable WHERE age>10 ") 
= Referenced Libraries Ú  teenagers.map(t => "Name: ”+ t(8) +" "+ "Ager " + t(3)).collect().foreach(printin) 
> hive lib Ë sc.stop 
lib | L 
i» MR lib. 8) 
suus / [spark-submiti grt 
soon /[spark-submit --master spark://hadoop:7077 --class spark class2.example2l --executor-memory 256M example21.jar hdf: y 
< > 


把 对 应 的 代码 导出 ， 导 出 成 JAR 文件 ， 并 上 传 到 服务 器 上 ， 如 图 15-18 所 示 。 


回 Java - First_Project/src/spark_class1 /example1.scala - Scala IDE 
File Edit Source Refactor Refactor Navigate Search Project Run Window Help 

nva B 

!t Package Explorer 


Select 
Export resources into a JAR file on the local file system. 





a s5 First Project. 
^ src 
t hadoop classt 
f scala class2 
d$ scala classi 


Select an export destination: 
type filter text 





i$ scala class 
^ & spark classt 


4 © Java 
[E JAR file 
£ Javadoc 
'unnable JAR file 
Plug-in Development 
s Run/Debug 


Copy of SogouRest 
CountSample.scala 
example1.scala 
SogouResulL.scala 
š WordCount scala 


i9 m m 





m JRE System Library [Javi 
m Scala Library [2.10.4] 


| Next> 


< Back 





图 15-18 


15.4.5 ”第 四 步 : 远程 执行 程序 





Finish 


SSH 到 Spark 服务 器 ， 运 用 spark-submit 命令 执行 对 应 的 脚本 ， 脚 本 如 下 : 





| # 执 行 的 spark 脚本 
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Spark-submit --master spark://127.0.0.1:7077 --class 
spark classl.example21 --executor-memory 256M example21.jar 
hdfs://127.0.0.1:8020/input spark/people.json 





操作 页 面 如 图 15-19 所 示 。 






文件 (F】 编辑 (E) 查看 (V) 选项 (O) GAN BER) TB) SOW) 帮助 (H) 
S 19 2902 aR a y A 5 3 m t e E 

ERL 10.1.104.127 (2) x 
t r 





执行 完 例子 代码 后 ， 最 后 在 页 面 会 输出 下 面 的 结果 ， 如 图 15-20 所 示 。 


: 20 Age: Kiven 
: 30 Age: Kit 


图 15-20 





主要 的 过 滤 代 码 如 图 15-21 所 示 ， 表 示 的 业务 含义 是 取 年 龄 大 于 10 岁 的 记录 。 


l( SELECT * FROM j 
KE 1521 
和 原始 数据 进行 对 比 ， 结 果 如 图 15-22 所 示 。 


[root@hadoop spark]# hadoop fs -cat 
"name":" DI 





/input_spark/people.json 
"name 


I 
í 
{ "name 
{ 


"name" :" 





图 15-22 


说 明 最 终 得 出 的 结果 是 正确 的 。 
15.5 Spark Streaming 实战 


15.5.4 例子 概述 


使 用 Spark Streaming 监控 某 目 录 中 的 文件 ,获取 在 间隔 时 间 段 内 变化 的 数据 ,然后 通过 Spark 
Streaming 计算 出 该 时 间 段 内 单词 统计 数 。 


15.5.2 ”第 一 步 : 编写 代码 


在 Scala IDE 工具 中 编写 Spark 代码 ， 代 码 如 下 : 
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HG 
package spark class2 
import org.apache.spark.SparkConf 
import org.apache.spark.streaming.Seconds 
import org.apache.spark.streaming.StreamingContext 
import org.apache.spark.streaming.StreamingContext. 
object FileWordCount ( 
def main(args: Array[String]) ( 
val sparkConf - new 
SparkConf () . setAppName ("FileWordCount").setMaster ("local[2]") 
// 创建 Streaming 的 上 下 文 ， 包括 Spark 的 配置 和 时 间 间 隔 ， 这 里 时 间 为 间隔 10 秒 
val ssc = new StreamingContext (sparkConf, Seconds (10) ) 
val lines = 
ssc.textFileStream("hdfs://127.0.0.1:8020/input spark streaming/") 
// 对 指定 文件 夹 变化 的 数据 进行 单词 统计 并 且 打 印 
val words = lines.map( .split(',")) 
val wordCounts = words.map(x-»(x(0),1)).reduceByKey( * ) 


println("--------------- 打印 wordCounts 数据 ----------------- 
wordCounts .Print() 
println("--------------- 启动 Streaming----------------- xD 


ssc.start() 
Ssc.awaitTermination() 





15.5.8 ”第 二 步 : 上 传 文件 到 服务 器 


把 对 应 的 代码 导出 ， 导 出 成 JAR 文件 ， 并 上 传 到 服务 器 上 ， 如 图 15-23 所 示 。 





JAR File Specification Í 
Define which resources should be exported into the JAR. " 


Select the resources to export: 
`= š HADOOP Project 门 acache ^ 
ù classpath 
Ma project 
713 HBaseDemojava 
712 kafka 210-0.8.1.1jar 


= nart_aecembiu-1 2 D-edlht 3 B har V 





| Export generated class files and resources 

| Export all output folders for checked projects 

[| Export Java source files and resources 

L Export refactorings for checked projects Select refactorings... 


Select the export destination: 





JAR file: DAeclipse\workspace\FileWordCount jar v| Browse. 


Options: 

|v Compress the contents of the JAR file. 
LL Add directory entries. 

[Overwrite existing files without warning 


@ «Bak | Net» | Finish Cancel 





图 1523 
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15.5.4 第 三 步 : 远程 执行 程序 


SSH 到 Spark 服务 器 ， 运 用 spark-submit 命令 执行 对 应 的 脚本 ， 脚 本 如 下 : 





# 执 行 的 spark 脚本 
Spark-submit --master spark://127.0.0.1:7077 --class 
spark class2.FileWordCount --executor-memory 256m FileWordCount.jar 





15.5.5 ”第 四 步 : 上 传 数据 


上 传 本 地 的 数据 文件 到 指定 的 HDFS 目录 ， 如 图 15-24 所 示 。 


文件 (F) MAD HEV WNO MAN ES TR) BOW) AH 
ESESIRESE S ^v^ add lets SET ed 
oi, 101.104.127 | mn 101.104.127 (1) x 


p park: PFE 
Footühadoop input spark streaming]£& hadoop fs -put example-2.txt /input spark streaming 








图 1524 


15.5.0 ”最 后 一 步 : 查看 结果 


执行 完 例子 代码 后 ， 最 后 在 界面 会 输出 结果 ， 如 图 15-25 所 示 。 





16/05/04 18:53:40 INFO scheduler.JobScheduler: Finished job streaming job 146235922000! 
ime rrr ms 
5/04 11 scheduler.JobScheduler: Total delay: 0.373 s for time 146235922 


rdd.shuffledRDD: Removing RDD 4 from persistence list 
storage.BlockManager: Removing RDD 4 

rdd.MappedRDD: Removing RDD 3 from persistence list 
storage.BlockManager: Removing RDD 

rdd.MappedRDD: Removing RDD 2 from parsistence list 
storage.BlockManager: Removing RDD 2 

rdd.MappedRDD: Removing RDD 1 from persistence list 
storage.BlockManager: Removing RDD 1 

dstream.FileInputDStream: Cleared 0 old files that were older tl 
scheduler.ReceivedBlockTracker: Deleting batches ArrayBuffer() 











如 图 1525 
要 的 业务 代码 如 图 15-26 所 示 ， 表 示 的 业务 含义 是 对 第 一 列 的 单词 出 现 的 次 数 进行 统计 。 











val wordCounts 


图 1526 


和 原始 数据 进行 对 比 ， 结 果 如 图 15-27 所 示 。 





[root@hadoop input_spark_streaming]# hadoop fs -cat /input spark streaming/example-2.txt 





图 15-27 
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说 明 最 终 的 分 析 结 果 是 正确 的 。 
15.6 Spark MLlib 实战 


15.6.1 例子 步骤 


(1) 装载 数据 ， 数 据 以 文本 文件 方式 进行 存放 。 

(2) 将 数据 集聚 类 ， 设 置 2 个 类 和 20 次 迭代 ， 进 行 模型 训练 以 形成 数据 模型 。 
(3) 打印 数据 模型 的 中 心 点 。 

(4) 使 用 误差 平方 之 和 来 评估 数据 模型 。 

(5) 使 用 模型 测试 单 点 数据 。 

(6) 交叉 评估 1， 返 回 结果 ; 交叉 评估 2， 返回 数据 集 和 结果 。 


15.6.2 ”第 一 步 : 编写 代码 


在 Scala IDE 工具 中 编写 Spark 代码 ， 代 码 如 下 : 
# 代 码 


package spark class3 

import org.apache.log4j.( Level, Logger ) 

import org.apache.spark.( SparkConf, SparkContext } 

import org.apache.spark.mllib.clustering.KMeans 

import org.apache.spark.mllib.linalg.Vectors 

object Kmeans ( 

def main(args: Array[String]) ( 
// 屏蔽 不 必要 的 日 志 显示 在 终端 上 
Logger.getLogger ("org.apache.spark") .setLevel (Level .WARN) 
Logger.getLogger ("org.eclipse.jetty.server") .setLevel (Level.OFF) 
// 设置 运行 环境 
val conf = new SparkConf() .setAppName ("Kmeans") .setMaster ("local [1]") 
val sc = new SparkContext (conf) 
// 装载 数据 集 
val data = 
sc.textFile("hdfs://127.0.0.1:8020/input spark/kmeans data.txt", 1) 
val parsedData = data.map(s => 
Vectors.dense(s.split("Nt") .map( .toDouble))) 
// 将 数据 集聚 类 ，2 个 类 ，20 次 和 迭代， 进行 模型 训练 形成 数据 模型 
val numClusters = 2 
val numIterations - 20 
val model - KMeans.train(parsedData, numClusters, numIterations) 
// 打印 数据 模型 的 中 心 点 
println("Cluster centers:") 
for (c «- model.clusterCenters) ( 
println(" " + c.toString) 





H 
// 使 用 误差 平方 之 和 来 评估 数据 模型 
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val cost = model.computeCost (parsedData) 
println("Within Set Sum of Squared Errors - " * cost) 
// 交叉 评估 1， 只 返回 结果 
val testdata = data.map(s => 
Vectors.dense(s.split("Nt") .map( .toDouble))) 
val resultl = model.predict (testdata) 
// 交叉 评估 2， 返 回 数据 集 和 结果 
val result2 = data.map ( 
line => 
val linevectore = Vectors.dense(line.split("NVt").map( .toDouble) 
val prediction = model.predict(linevectore) 
line + " " + prediction 
} 
sc.stop() 
) 
) 








15.6.3 ”第 二 步 : 上 传 文件 到 服务 器 
把 对 应 的 代码 导出 ， 导 出 成 JAR 文件 ， 并 上 传 到 服务 器 上 ， 如 图 15-28 所 示 。 


JAR File Specification 


Define which resources should be exported into the JAR. 


Select the resources to export: 
_ | HADOOP Project TIE cache 
1 .classpath 
1 project 
18 HBaseDemojava 


kafka 2.10-0.8.1.1 jar 
7718 enark-accamhilu-1 2 ceris 2 a. ha, V. 
< > 





Export generated class files and resources 
| J Export all output folders for checked projects 

Export Java source files and resources. 

| ] Export refactorings for checked projects Select refactorings... 


Select the export destination: 
JAR file: DAeclipseuworkspaceITIPPTIsER 
Options: 

V Compress the contents of the JAR file 
.. | Add directory entries 
Overwrite existing files without warning 





Finist 





图 1528 


15.6.4 第 三 步 : 远程 执行 程序 


SSH 到 Spark 服务 器 ， 运 用 spark-submit 命令 执行 对 应 的 脚本 ， 脚 本 如 下 : 
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spark-submit --master spark://127.0.0.1:7077 --class spark class3.Kmeans 
--executor-memory 256m Kmeans.jar 


操作 界面 如 图 15-29 所 示 。 





文件 (F) SEE 查看 (V) WAO FAM 脚本 (S$) 工具 (L) AOW) 帮助 (H) 
JPPA At as 63 agt eB 
庶 拟 机 10.1.104.127. x 
@ op sp C 
ark class3.Kmeans --executor-memory 256m Kmean 





图 15-29 


15.6.5 ”第 四 步 : 上 传 数据 


上 传 本 地 的 数据 文件 到 指定 的 HDFS 目录 ， 如 图 15-30 所 示 。 


[rootQhadoop spark]£ hadoop fs -put kmeans data.txt /input spark 


图 15-30 


15.6.6 ”最 后 一 步 : 查看 结果 


执行 完 例子 代码 后 ， 最 后 在 界面 上 会 输出 相应 的 结果 ， 如 图 15-31 Bros. 


16/05/18 17:58:54 WARN clustering.KMeans: The input data is not di 
rectly cached, which may hurt performance if its parent RDDs are a 
lso uncached. 

16/05/18 17:58:55 WARN netlib.BLAS: Failed to load implementation 
from: com.github.fommil.netlib.NativeSystemBLAS 

16/05/18 17:58:55 WARN netlib.BLAS: Failed to load implementation 


from: com.github.fommil.netlib.NativeRefBLAS 
16/05/18 17 56 WARN clustering.KMeans: The input data was not d 
irectly cached, which may hurt performance if its parent RDDs are 
also uncached. 
Cluster centers: 

[0.09999999999999998] 

9.1 





如 图 15-31 


主要 的 业务 代码 如 图 15-32 所 示 ， 表 示 的 业务 含义 是 数据 集 的 聚 类 个 数位 2， 进 行 20 DORT, 
形成 计算 模型 结果 。 
// 将 数据 集聚 类 ，2 个 类 ，20 次 迭代 ， 进 行 模型 训练 形成 数据 模型 


val numClusters = 
[val numIterations 

















l| to 


20 





图 15-32 


和 原始 数据 进行 对 比 ， 结 果 如 图 15-33 所 示 。 
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root@hadoop spark]|£ hadoop fs -cat /input_spark/kmeans_data.txt 





o 
0 
.0 
.0 
1 


图 15-33 


0.09999999999999998 表示 聚 类 的 中 间 值 ， 说 明 最 终 的 分 析 结 果 是 正确 的 。 


第 16 = 
大 数据 全 栈 式 开发 语言 Python 


Python 语言 的 创始 人 为 Guido van Rossum. 1989 年 圣诞 节 期 间 ， 在 阿姆斯特丹 ，Guido 为 了 
打发 圣诞 节 的 无 趣 ， 决 心 开发 一 个 新 的 脚本 解释 程序 ， 作 为 ABC 语言 的 一 种 继承 。 之 所 以 选中 
Python 作为 程序 的 名 字 ， 是 因为 他 是 一 个 叫 Monty Python 的 喜剧 团体 的 爱好 者 。ABC 是 由 Guido 
参加 设计 的 一 种 教学 语言 。 就 Guido 本 人 看 来 ，ABC 这 种 语言 非常 优美 和 强大 ， 是 专门 为 非 专业 

显 序 员 设计 的 。 但 是 ABC 语言 并 没有 成 功 ， 究 其 原因 ，Guido 认为 是 非 开 放 造 成 的 。Guido 决心 
在 Python 中 避免 这 一 错误 。 同 时 ， 他 还 想 实现 在 ABC 中 闪现 过 但 未 曾 实现 的 东西 。 

就 这 样 , Python 在 Guido 手中 诞生 了 .。 可 以 说 ,Python 是 从 ABC 发 展 起 来 , 主要 受到 了 Modula-3 

的 影响 ， 并 且 结合 了 Unix shell 和 C 的 习惯 。 


16.1 Python 简介 


Python 是 一 个 高 层次 的 ， 结 合 了 解释 性 、 编 译 性 、 互 动 性 和 面向 对 象 的 脚本 语言 。 

Python 的 设计 具有 很 强 的 可 读 性 ， 相 比 其 他 语言 经 常 使 用 英文 关键 字 ， 其 他 语言 的 一 些 标点 
符号 ， 它 具有 比 其 他 语言 更 有 特色 语法 结构 。 

Python 是 一 种 解释 型 语言 ， 这 意味 着 开发 过 程 中 没有 了 编译 这 个 环节 ， 类 似 于 PHP 和 Perl il 

。 是 交互 式 语言 ， 可 以 在 一 个 Python 提示 符 ， 直 接 互 动 执行 你 的 程序 。 它 是 面向 对 象 语言 ， 这 
意味 着 Python 支持 面向 对 象 的 风格 或 使 用 代码 封装 在 对 象 内 的 编程 技术 。 它 也 是 适合 初学 者 的 语 
Python 对 初级 程序 员 而 言 ， 是 一 种 伟大 的 语言 ， 它 支持 广泛 的 应 用 程序 开发 ， 从 简单 的 文字 
到 WWW 浏览 器 再 到 游戏 ， 都 能 使 用 它 做 开发 。 
Python 的 优点 如 下 : 


a) 易于 学 习 : Python 有 相对 较 少 的 关键 字 ， 简 单 的 结构 ， 和 明确 定义 的 语法 ， 学 习 起 来 更 
加 简单 。 


Ek nl 








E n 
Noc 
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(2) 易于 阅读 : Python 代码 定义 的 更 清晰 。 

G) 易于 维护 : Python 的 成 功 在 于 它 的 源 代码 是 相当 容易 维护 的 。 

(4) 拥有 广泛 的 标准 库 : Python 最 大 的 优势 之 一 是 拥有 丰富 的 库 ， 支 持 跨 平 台 ， 在 UNIX、 
Windows 和 Macintosh 兼容 很 好 。 

(5) 互动 模式 : 互动 模式 的 支持 ， 可 以 从 终端 输入 执行 代码 并 获得 结果 ， 可 以 互动 的 测试 和 
调试 代码 片断 。 

(6) 可 移植 : 基于 其 开放 源 代 码 的 特性 ，Python 已 经 被 移植 到 许多 平台 上 。 

CD 可 扩展 : 如 果 需 要 一 段 运行 很 快 的 关键 代码 ， 或 者 是 想 要 编写 一 些 不 愿 开 放 的 算法 ， 可 
以 使 用 C 或 C++ 完成 那 部 分 程序 ， 然 后 从 Python 程序 中 调用 。 

(8) 数据 库 : Python 提供 所 有 主要 的 商业 数据 库 的 接口 。 

(9) GUI 编程 ， Python 支持 GUI， 可 以 创建 和 移植 到 许多 系统 调用 。 

(100 HRA: 可 以 将 Python 嵌入 到 C/C++ 程 序 ， 让 程序 的 用 户 获得 “脚本 化 ”的 能 力 。 





16.2 Python 安装 和 配置 


16.2.1 Anaconda 介绍 





Anaconda 是 将 Python 和 许多 常用 的 开源 package 打包 直接 来 使 用 的 Python 发 行 版 本 ， 支 持 
Windows. Linux 和 MacOS 系统 ， 并 有 一 个 开源 包 Cpackages) 和 虚拟 环境 (environment) 管理 系 
统 conda。 


(1) 省 时 省 心 : Anaconda 通过 管理 工具 包 、 开 发 环境 、Python 版 本 ， 大 大 简化 了 工作 流程 。 
不 仅 可 以 方便 地 安装 、 更 新 、 卸 载 工具 包 ， 而 且 安 装 时 能 自动 安装 相应 的 依赖 包 ， 同 时 还 能 使 用 不 
同 的 虚拟 环境 隔离 不 同 要 求 的 项 目 。 

(2) 分 析 利 器 : 适用 于 企业 级 大 数据 分 析 的 Python LR, HEE T 720 多 个 数据 科学 相关 的 
开源 包 , 在 数据 可 视 化 、 机 器 学 习 、 深 度 学 习 等 多 方面 都 有 涉及 。 它 不 仅 可 以 做 数据 分 析 ， 也 可 以 
用 在 大 数据 和 人 工 智能 领域 。 





16.2.2 Anaconda 下 载 


可 以 从 官网 Chttps://www.anaconda.com/download/) 下 载 Anaconda 的 安装 程序 ， 在 该 页 面 选 
择 电脑 所 对 应 的 系统 Windows, MacOS 或 Linux) 以 及 操作 系统 位 数 (64 或 32 位 ) 。 至 于 是 
Python 的 版 本 选择 3.6 还 是 2.7， 这 里 推荐 使 用 Python 3.6 版 本 ,因为 Python2 终究 会 停止 维护 。 以 
Windows 64 位 系统 为 例 ， 下 载 Python 3.6 版 本 的 选择 界面 如 图 16-1 所 示 。 
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EË Windows — €& macos Á Linux 


Anaconda 5.2 For Windows Installer 


Python 3.6 version ` Python 2.7 version ` 


出 Download 出 Download 


648i 






+ (E64 MB] 
r (443 MB) 





32-88 Gr 








图 16-1 
16.2.3 Anaconda 安装 


(1) 依次 点 击 Next-1 agree Next 进入 选择 安装 目录 界面 。 
(2) 在 选择 安装 目录 界面 ， 安 装 路 径 改 为 d\Anaconda3， 如 图 16-2 所 示 。 


Choose Install Location 
O ANACONDA choose the folder in which to install Anaconda3 4.3.1 (64-bit). 


Setup will install Anaconda3 4.3.1 (64-bit) in the following folder. To install in a different 
folder, click Browse and select another folder. Click Next to continue. 


Destination Folder 


| 








Space required: 1,8GB 
Space available: 3.3GB 








图 162 


(3) 然后 点 击 Next 进入 到 Advanced Options 界面 。 其 中 有 两 个 选项 框 ， 建 议 将 第 一 个 选项 
框 选 上 。 然 后 点 击 Install， 等 待 安装 完成 点 击 Next—Finish 即 可 ， 安 装 过 程 可 能 较 长 ， 要 10 ~ 15 
分 钟 不 等 ， 请 耐心 等 待 。 

(4) 可 以 在 命令 行 中 输入 conda -version 命令 检验 是 否 安装 成 功 ， 成 功 则 会 显示 对 应 的 版 本 ， 
可 以 通过 python -version 命令 查看 发 行 版 默认 的 Python 版 本 。 
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16.2.4 Anaconda 包 管 理 


需要 安装 一 个 包 的 时 候 ， 可 以 先 查 询 安装 包 中 是 否 有 该 Python 包 ， 如 果 没 有 此 包 ， 可 以 按照 
下 面 的 相应 命令 安装 。 
(1) 安装 一 个 package 的 命令 : conda install package name. 
这 里 package name 是 需要 安装 包 的 名 称 , 也 可 以 同时 安装 多 个 包 , 比如 同时 安装 numpy、 scipy 
和 pandas， 可 以 执行 如 下 命令 : conda install numpy scipy pandas。 
(2) 可 以 指定 安装 的 版 本 ， 比 如 安装 1.2 版 本 numpy 的 脚本 : conda install numpy=1.20。 
(3) 移 除 一 个 package 脚本 : conda remove package name. 
(4) 升级 package 版 本 脚本 : conda update package_name。 
C5) 查看 所 有 的 packages 脚本 : conda list. 
(6) 模糊 查询 某 个 packages 脚本 : conda search search term. 


16.2.5 PyCharm 下 载 


PyCharm 是 一 种 Python IDE， 带 有 一 整套 在 使 用 Python 语言 开发 时 提高 其 效率 的 工具 ， 比 如 
调试 、 语 法 高 亮 、 工 程 管理 、 代 码 跳 转 、 智 能 提示 、 自 动 完成 、 单 元 测试 、 版 本 控制 。 

可 以 从 官网 https://www.jetbrains.com/pycharm/download/ 上 下 载 PyCharm 安装 程序 ， 在 该 页 
面 选 择 所 对 应 的 系统 (Windows、MacOS 或 Linux) 。 由 于 专业 版 (Professional) 需要 激活 ， 并 
HEKA (Community) 已 经 包含 了 所 需要 的 基本 功能 ， 所 以 这 里 选择 社区 版 下 载 ， 以 Windows 
为 例 ， 下 载 界面 如 图 16-3 所 示 。 














Download PyCharm 
Windows macos Linux 

Professional Community 
Full-featured IDE Lightweight IDE 
for Python & Web for Python & Scientific 
development development 

Free tria Free, open-source 

图 16-3 


16.2.6 PyCharm 安装 


双击 下 载 后 的 文件 进入 安装 界面 。 
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SROI 点 击 Next 按钮 进入 安装 目录 选择 界面 ， 选 择 要 安装 PyCharm 的 目录 。 安 装 路 径 改 
为 dAPyCharm Community Edition， 如 图 16-4 所 示 。 











Choose Install Location 
Choose the folder in which to install PyCharm Community Edition. 





Setup will install PyCharm Community Edition in the following folder. To install in a different. 
folder, click Browse and select another folder. Click Next to continue. 


Destination Folder 


Browse... 


Space required: 502.6 MB 





图 164 


39802 / 点 击 Next 按钮 进入 下 一 界面 , 按照 电脑 操作 系统 的 位 数 ( 64 或 32 位 ) , 选择 Create 
Desktop Shortcut， 界 面 如 图 16-5 所 示 。 


Installation Options 
Configure your PyCharm Community Edition installation 


Create Desktop Shortcut 








|32-bitlauncher |v 














Create Associations. 





| py 














L ]Download and install JRE x86 by JetBrains 








图 16-5 


3503 4 PRAT Next>Install>Finish 完成 软件 的 安装 。 
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16.2.7 PyCharm 使 用 

















面 上 的 PyCharm 图 标 ， 打 开 如 图 16-6 所 示 的 界 


Ej 
Ur 





， 点 击 OK 按钮 继续 。 


























* Do not import settings 





图 16-6 
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3:802 / 进入 到 选择 UI 的 模式 ， 选 择 Darcula， 如 图 16-7 所 示 ， 点 击 NextFeatured plugins 


按钮 。 


UI Themes — Featured plui 


Set UI th 


+ Darcula 


Ultheme can be changed | 


Skip Remaining and Set D 


gins 


IntelliJ 


project > 3 fib.py 
4 fib.py 


def fib(n): 








Python Exception Breskpoi 











Any exception 














@ Django Exception Breakpoi 





ater in Settings | Appearance 


Jefaults Next: Featured plugins 





图 16-7 








503 | 依次 点 


E OK 按钮 ， 进 入 到 如 图 16-8 所 示 的 界面 








E 
o 
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PyCharm 


3 Create 
i» Oper 


Check out from Version Control ~ 


Configure » Get Help + 





图 16-8 


3804 / 点 击 Create New Project， 进 入 如 图 16-9 所 示 的 界面 。 图 中 的 Location 是 选择 创建 
Python 工程 的 位 置 及 工程 名 字 ， 工 程 目录 为 DAPyCharm Community Edition\project， 给 工程 取 个 名 
字 为 First Project; 图 中 的 Interpreter 是 安装 Python 的 解释 器 ， 默 认 的 情况 下 已 经 选择 好 ， 目 录 为 
Anaconda 的 安装 目录 下 的 Python 文件 。 选 择 好 后 ， 点 击 Create 按钮 。 


a 
































ocation: DAPyCharm Community Edition\project\First_Project 


Y Project Interpreter: New 


*: New environment using Conda 


Location: >nda3Venv 


Python version 


Conda executable: | dAAnacond 


Make able to all projects 


Existing interpreter 





图 16-9 
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如 图 16-10 所 示 ， 右 的 工程 名 字 ， 然 后 在 菜单 中 点 击 New， 选 择 
Python File 菜单 项 ， 在 弹出 的 界面 中 填写 新 建 Python 文件 的 名 字 。 


Li Fir Project [DAPyCharm Community Ediionwprojectrist Projeci] - PrCharm. 


File Edit View Navigate Code Refactor Run Tools VCS Win 








Eg 


























步骤 054 进入 的 界 





Ej 























- oEN 





Bs First Project 
E Project ~ 
BE First Project 
P Mi External Libra ratch File  Ctri+Alt+Shift+Insert 
Ctrl Shift+C 
Ctrl+Alt+Shift+C 
Notebook 


Find in Patt 


Replace in Path 





图 16-10 
DROGA 文件 创建 成 功 后 便 进入 如 图 16-11 所 示 的 界面 ， 新 建 Python 代码 文件 。 

















Bd First. Project [DAPyCharm Community Edition\project\First_Project] - .ADemo;py [First Project) -.. — O 
File Edit View Navigate Code Refactor Run Tools VCS Window Help 

Bs First Project ($ Demo.py 

ÉP Project v s 1- f Demo.py 

v im First Project 


$ Dem 
P lilli External Libraries 


É Scratches and Consoles 





图 16-11 











“Run”， 结 果 如 图 16-12 所 示 。 
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NE "T ISSUES | 


File Edit View Navigate Code Refactor Run Tools VCS Window Help 


Bu First Project í$ Demo.py Demo S 
B Project ~ 1 -- 22 1- 了 Demopy 

ME First Project 

I $ Demo.py 

P lilii External Libraries 


E Scratches and Consoles 


Demo 











图 16-12 


16.3 Python AT] 


16.3.1 ”例子 概述 


乘坐 公交 车 要 求 : 输入 公交 卡 当前 的 余额 ， 余 额 只 要 超过 1 元 ， 就 可 以 上 公交 车 ， 如 果 空 座 


位 的 数量 大 于 0， 就 可 以 坐 座位 。 





16.3.2 ”第 一 步 : 新 建 Python 文件 


新 建 1 个 Python 代码 文件 ， 如 图 16-13 所 示 。 
a New Python file EJ 


Name: First Demo 





Kind: $ Python file 


OK Cancel 





图 16-13 
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16.3.3 ”第 二 步 : 设置 字体 大 小 


在 菜单 栏 File 一 Settings 一 Editor 一 Font 中 设置 字体 大 小 ， 如 图 16-14 所 示 。 





Editor ) Font 


P Appearance & Behavior 
Font Aonos M v Show only monospaced fonts 
Keymap 


Size: 


Line spacing 


Fallback font: «None» y pported by the main font 


Enable font ligatures 
Templates 


File Encodings Restore Defaults 


Charm is 


I 
itk 


utstanding 


Language Injections 


Spelling 


Cancel 








图 16-14 


1634 第 三 步 : 编写 代码 


在 编辑 窗口 编写 Python 代码 ， 如 果 代 码 报错 ， 调 试 到 没有 错误 为 止 ， 如 图 16-15 所 示 。 
re Ea] 





File Edit View Navigate Code 





Bw First Project ($ First Demo.py Demo 
IL 
v Mm First Project 
$ Demo.py 
9 First Den 
I> tilii External Li 


ches anc 


图 16-15 
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Python 代码 如 下 : 





HG 
remainMoney-10 
emptySeet-1 
if remainMoney » 1: 
print (' 卡 上 余额 大 于 1 元, 可 以 上 车 ') 
remainMoney -= 1 
if emptySeet > 0: 
print (' 有 空 座 位 ， 可 以 坐 下 ') 


else: 
print (' 没 有 空 座 位 ， 站 着 ') 
else: 


print ( "余额 不 足 请 充值 ') 








16.3.5 ”第 四 步 : 执行 程序 


右 击 打开 菜单 ， 点 击 Run， 结 果 如 图 16-16 所 示 。 
EÍ First Project IDAPyCharm Community Editionproject Vit Project] -Prat Demopy [stroje] >x | 


File Edit View Navigate Code Refactor Run Tools Vi 











Bs First Project [$ First_Demo.py First Demo v 
ject ~ 9 = |w. |” f FisUDemopy 

Y Bm First Project 
$$ Demo py 
$ First D. 

> lilii External Li 


E Scratches 


harm Community 


图 16-16 


16.3.6 ”最 后 一 步 : 改变 输入 


修改 remainMoney 的 值 为 0， 表示 卡 上 的 余额 为 0， 最终 的 输出 结果 如 图 16-17 所 示 。 
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E First Project [DAPyCharm Community Edition\project\First Project] - -First Demo.py [First Project] - PyCharm = nis 
File Edit View Navigate Cod tor Run Tools idow Help 


Ba First Project ($ First Demo.p 


ñ tv E X- 1- first Demo.py 


Y Bs First Project 

í$ Demo.py 

$ First Demo.py 
P lilii External Libr. 


EP Scratches 


First Demo %- 上 


ity Edition| 


11 





图 16-17 


16.4 Python 数据 科学 库 pandas AT] 


16.4.4 例子 概述 


如 表 16-1 所 示 ， 类 似 这 种 结构 化 的 表格 数据 ，Python 将 用 pandas 包 处 理 。 
表 16-1 结构 化 的 表格 数据 












Sepal.Length Petal.Width |Class 


ESKE 


Petal.Length 





| setosa 





versicolor 





versicolor 





| virginica 








virginica 
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16.4.2. pandas 包 介绍 


pandas 是 强大 的 数据 分 析 和 处 理工 具 ，pandas 是 一 个 Python 包 ， 主 要 是 通过 “标记 ”和 “ 关 
系 ” 数 据 进行 工作 ， 简 单 直观 ，pandas 是 数据 整理 的 完美 工具 。 它 设计 用 于 快速 简单 的 数据 操作 、 
聚合 和 可 视 化 。 它 具有 如 下 特点 : 
快速 、 灵 活 的 数据 结构 ， 包 括 Series 系列 和 DataFrame 数据 框 。 
支持 类 似 SQL 的 数据 增 、 删 、 查 、 改 功能 。 
带 有 丰富 的 数据 处 理 函 数 。 
支持 时 间 序 列 分 析 功 能 。 
支持 灵活 处 理 缺 失 数据 。 





16.4.3 ”第 一 步 : 打开 Jupyter Notebook 


通过 操作 系统 的 开始 一 所 有 程序 一 Anaconda3 一 Jupyter Notebook， 新 建 一 个 Python3 的 页 面 ， 
如 图 16-18 所 示 。 


C © localhost8888/notebooks/Untitled10ipynb?kemel name=python3 Q *r | i 


二 Jupyter Untitled10 os 
File Edt — View Inse Cel Kemel Widgets ^ Help 4 |Pyhon3 O 


B + x @ Ü + + Hh BC cc * m= CelToolbar 





图 16-18 


16.44 第 二 步 : 导入 包 


在 识别 数据 之 前 ， 需 要 引入 pandas 包 ， 如 图 16-19 所 示 。 


T untitled10 

C | © localhost8888/notebooks/Untitled10.pynb?kemel name=python3 Q # 1 
C Jupyter Untitled40 & us 
Fie Edt View Insert Cell Kemel Widgets ^ Help 4 |Pyhon3 O 


|+ x| + + MH m C co * m CelToobbar 


In [5]: from pandas import DateFrane, Series 
print (“导入 包 成 功 . .“) 





号 入 包 成 功 .. 





图 16-19 
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16.4.5 ”第 三 步 : 定义 数据 集 





在 Jupyter Notebook 中 编写 Python 代码 , 定义 好 原始 数据 , 同时 定义 好 表 头 的 信息 , 如 图 16-20 
所 示 。 
























































In [17] 

df = DataFrame (d, 
colunns-[' Sepal. Length’ ,' Sepal. Width’,’ Petal. Length’ ,' Petal. Width',' Class’ ]) 

df 

Out [17] Sepal.Length | Sepal.Width | Petal.Length | Petal.Width | Class 
0/5.1 35 14 0.2 setosa 
14.9 3.0 14 02 setosa 
27.0 32 47 14 versicolor 
364 3.2 45 15 versicolor 
463 33 6.0 25 virginica 
5/58 27 54 19 virginica 

图 16-20 
代码 如 下 : 


1[5.1,3.5,1.4,0.2,'86tosa'], [4.9,3, 1.4, 0.2, 'setosa'" T]; 
(7;3,2,4.7,1.4, 'versicolor'],[6.4,3.2,4.5,1.5, ' versicolor']; 
[6.3,3.3,6,2.5, 'virginica'],[5.8,2.7,5.1,1.9, 'virginica']] 
df - 
DataFrame (d,columns-['Sepal.Length', 'Sepal.Width', 'Petal.Length', 'Petal.Wid 
th','Class']) 
df 





16.4.6 ”第 四 步 : 过 滤 数 据 


对 数据 集 使 用 一 些 过 滤 函 数 进行 处 理 ， 代 码 如 下 : 


print ("df 全 部 的 数据 : ") 

print (df) 

print ("索引 出 df 前 2 行 的 数据 : ") 
print (df[:2]) 

print (" 索 引出 df 某 列 的 数据 : ") 
print (df['Sepal.Width']) 








结果 如 图 16-21 所 示 。 
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print ("df 全 部 的 数据 :“) 

print (df) 

print ("索引 出 df 前 2 行 的 数据 :“) 
print (d£ [:2]) 

print (“ 索 引出 df 某 列 的 数据 :“) 
print (df[’ Sepal.Width ]) 








df 全 部 的 数据 : 
Sepal.Length Sepal.Width Petal.Length Petal.Width Class 
0 5.1 3.5 1.4 0.2 setosa 
1 4.9 3.0 1.4 0.2 setosa 
2 7.0 3.2 4.7 1.4 versicolor 
3 6.4 3.2 4.5 1.5 versicolor 
4 6.3 3.3 6.0 2.5 virginica 
5 5.8 2.7 5.1 1.9 virginica 
索引 出 df 前 2 行 的 数据 : 
Sepal.Length Sepal.Width Petal.Length Petal.Width Class 
0 5:1 3.5 1.4 0.2 setosa 
1 4.9 3.0 1.4 0.2 setosa 
索引 出 df 某 列 的 数据 : 
0 3.5 
1 3.0 
2 3.2 
3 3.2 
4 3.8 
5 2.7 
Name: Sepal.Width, dtype: float64 
图 1621 
= 3 
164.7 最 后 一 步 : 获取 数据 
获取 指定 的 数据 集 数据 ， 结 果 如 图 16-22 所 示 。 
print ("索引 出 df 某 几 列 的 数据 :“) 
print (d£ [[ Sepal. Width',' Class’ ]]) 
print (取出 df 地 1 行 和 第 三 行 的 数据 :“)| 
print (df. loc [[True, False, True, False, False]]) 
索引 出 df 某 几 列 的 数据 : 
Sepal. Width Class 
0 3.5 setosa 
1 3.0 setosa 
2 3.2 versicolor 
3 3.2 versicolor 
4 3.3  virginica 
5 2.7  virginica 
取出 df 地 1 行 和 第 三 行 的 数据 : 
Sepal. Length Sepal.Width Petal.Length Petal.Width Class 
0 5.1 3.5 1.4 0.2 setosa 
2 7.0 3.2 4.7 1.4 versicolor 














图 1622 


代码 如 下 : 





print (" 索 引出 df 某 几 列 的 数据 : ") 
print(df[['Sepal.Width','Class']]) 
print ("取出 df 地 1 行 和 第 三 行 的 数据 : v) 


print(df.loc[[True,False,True,False,False]]) 
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16.5 Python 绘图 库 matplotlib AT] 


16.5.4 ”例子 概述 


处 理学 生 的 成 绩 数 据 ， 把 学 生 分 成 不 同 的 小 组 ， 且 再 区 分 不 同 的 性 别 ， 对 这 些 数 据 用 Python 
的 matplotlib 画图 包 进 行 处 理 ， 以 画 柱 状 图 显示 。 


16.5.2 ”第 一 步 : 新 建 一 个 Python 文件 


新 建 一 个 Python 文件 ， 取 名 为 plt， 如 图 16-23 所 示 。 
E New Python file ES 


Name: pl 


Kind $» Python file 


OK Cancel 





图 16-23 


16.5.8 第 二 步 : 引入 画图 包 
引入 matplotlib 等 包 ， 以 便 后 面 的 程序 使 用 画图 的 函数 设置 字符 集 参数 ， 如 图 16-24 所 示 。 


a 





图 16-24 


编程 代码 如 下 : 





import numpy as np 

import matplotlib.pyplot as plt 

print (" 引 入 包 成 功 . . .") 

# 指 定 默认 字体 

plt.rcParams['font.sans-serif'] = ['SimHei'] 
plt.rcParams['font.family']-'sans-serif' 
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16.5.4 第 三 步 : 组 织 数 据 


声明 数据 的 个 数 ， 设 置 表格 的 宽度 ， 声 明 学 生 的 成 绩 数据 ， 组 织 好 画图 的 元 素 ， 如 图 16-25 所 示 。 





# 设 置 个 数 


N =5 

# 为 组 设置 X 的 位 置 

ind = np.arange(N) 

print (ind) 

# 图 像 的 宽度 

width = 0.35 

fig, ax = plt.subplots() 

print(fig) 

print (ax) 

JHHHHHETRLAATE 7C 

#yerr 表示 让 柱 形 图 的 顶端 空 出 一 部 分 距离 

menMeans = (20, 35, 30, 35, 27) 

menStd - (2, 3, 4, 1, 2) 

rects men = ax.bar(ind, menMeans, width, color-'red', yerr-menStd) 

womenMeans - (25, 32, 34, 20, 25) 

womenStd - (3, 5, 2, 3, 3) 

rects wommen = ax.bar(ind + width, womenMeans, width, color-'yellow', 
yerr-womenStd) 








16.5.5 ”第 四 步 : 画图 


编写 画图 的 功能 ， 设 置 图 片 的 x 轴 、y 轴 和 标题 等 信息 ， 脚 本 如 下 : 
[O 4# 添加 Y 轴 标签 、x 轴 标 签 、 标 题 和 标签 等 
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ax.set_ylabel (' 成 绩 ') 
ax.set_title(' 不 同性 别 不 同 组 的 成 绩 ' ) 
ax.set xticks(ind + width) 
ax.set xticklabels(('/H1', '/H2', '/H3', 'fH4', 'f85")) 
ax.legend((rects men[0], rects wommen[0]), ('3', 'X')) 
# 自 动 打 标签 的 函数 
def autolabel (rects) : 
# 附 上 一 些 文本 标签 
for rect in rects: 
height = rect.get height() 
ax.text(rect.get x() * rect.get width()/2., 1.05*height, 
'$d' % int (height), 
ha-'center', va-'bottom') 
autolabel(rects men) 
autolabel (rects wommen) 
# 男 图 
plt.show() 





16.5.0 ”最 后 一 步 : 查看 结果 


编写 好 程序 后 ， 右 击 打开 菜单 ， 点 击 Run 按钮 ， 之 后 会 出 现 结果 图 像 ， 如 图 16-26 所 示 。 


# € > tas 


不 同性 别 不 同 组 的 成 绩 














lili 


图 1626 


横 轴 表示 5 个 不 同 的 分 组 ， 纵 轴 表 示 学 生 的 成 绩 。 
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第 17 = 


大 数据 实战 案例 : 实时 数据 流 处 理 项 目 


17.1 项 目 背 景 介 绍 


关于 大 数据 ， 难 以 有 一 个 准确 定量 的 定义 。 维 基 百科 给 出 了 一 个 定性 的 描述 ， 大 数据 是 指 无 法 使 
用 传统 和 常用 的 软件 技术 和 工具 在 一 定时 间 内 完成 获取 、 管 理 和 处 理 的 数据 集 。 更 进一步 ， 当 今 “ 大 
数据 ”一 词 的 重点 其 实 已 经 不 仅 在 于 数据 规模 的 定义 ， 它 更 代表 着 信息 技术 发 展 进入 了 一 个 新 的 时 代 ， 
代表 着 爆炸 性 的 数据 信息 给 传统 的 计算 技术 和 信息 技术 带 来 的 技术 挑战 和 困难 ， 代 表 着 大 数据 处 理 所 
需 的 新 的 技术 和 方法 ， 也 代表 着 大 数据 分 析 和 应 用 所 带 来 的 新 发 明 、 新 服务 和 新 的 发 展 机 遇 。 

由 于 数据 的 不 断 扩 张 ， 不 同 数据 类 型 的 数据 不 断 的 剧 增 ， 使 得 需要 对 大 量 的 数据 进行 处 理 ， 
尤其 是 对 规模 庞大 的 数据 进行 实时 处 理 存 在 很 多 业务 难点 和 技术 难点 ,所 以 本 章 将 要 介绍 的 实时 数 
据 流 处 理 项 目 就 显得 非常 重要 。 此 项 目 是 一 个 完整 的 企业 级 大 数据 实战 项 目 , 是 按照 企业 级 标准 来 
设计 ， 从 日 志 的 收集 、 数 据 的 产生 、 数 据 的 转化 和 处 理 、 实 时 计算 、 数 据 实时 分 析 、Scala 后 台 开 
发 、Web 前 端 展示 等 ， 是 个 完整 的 流程 型 体系 结构 ， 几 乎 都 考虑 到 故障 转移 和 容错 性 等 。 








17.2 ”业务 需求 分 析 


本 项 目 应 用 场景 是 分 析 用 户 使 用 手机 App 的 行为 ， 描 述 如 下 : 
CD 手机 客户 端 会 收集 用 户 的 行为 事件 ， 用 户 编号 、 点 击 网 站 地 址 、 手 机 操作 系统 、 点 击 时 
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间 等 ， 将 数据 发 送 到 数据 服务 端 。 

(2) 后 端的 实时 服务 端 会 消费 发 送 过 来 的 数据 ， 将 数据 读 出 来 并 进行 实时 分 析 。 

(3) 经 过 计算 程序 的 实时 处 理 与 分 析 ， 将 结果 数据 进行 保存 ， 保 存 的 数据 为 用 户 编号 、 点 击 
网 站 次 数 、 点 击 时 长 等 。 

(4) 在 前 端 展现 每 个 用 户 的 点 击 趋势 图 。 

(5) 统计 哪个 时 间 段 用 户 浏览 量 最 高 。 





17.3 项 目 技术 架构 


项 目 技术 架构 如 图 17-1 所 示 ,， 先 通过 Kafka 模拟 采集 一 些 数据 ， 以 消息 队列 的 方式 传送 数据 ， 
Spark Streaming 接收 到 流 数 据 后 ，Spark 进行 数据 业务 逻辑 的 处 理 ， 处 理 之 后 的 数据 再 实时 地 存储 
到 内 存 数据 库 Redis 中 。 


输入 数据 流 离散 输入 数据 流 离散 输出 数据 流 








(来 自 Kafka) (转化 为 批 处 理 ) ( 批 处 理 结果 ) 
Spark Streaming Spark 计算 引擎 
(实时 处 理 框架 ) (进行 日 志 分 析 ) 
图 17-1 


Spark Streaming 提供 了 一 个 叫 作 DStream (Discretized Stream) 的 高 级 抽象 ，DStream 表示 一 
个 持续 不 断 输入 的 数据 流 ， 可 以 基于 Kafka, TCP Socket, Flume 等 输入 数据 流 创建 。 在 它 的 内 部 ， 
一 个 DStream 实际 上 是 由 一 个 RDD 序列 组 成 的 。Sparking Streaming 是 基于 Spark 平台 的 ， 也 就 继 
IKT Spark 平台 的 各 种 特性 , 如 容错 (Fault-tolerant)、 可 扩展 (Scalable)、 高 吞吐 (High-throughput) 
等 特性 。 

在 Spark Streaming 中 ， 每 个 DStream 包含 了 一 个 时 间 间 隔 之 内 的 数据 项 的 集合 ， 可 以 理解 为 
指定 时 间 间 隔 之 内 的 一 个 Batch， 每 一 个 Batch 就 构成 一 个 RDD 数据 集 ， 所 以 DStream 就 是 一 个 
个 Batch 的 有 序 序列 ， 时 间 是 连续 的 ， 按 照 时 间 间 隔 将 数据 流 分 割 成 一 个 个 离散 的 RDD 数据 集 ， 
如 图 17-2 所 示 。 





RDD Q time 1 RDD@time2 — RDD Q time3 RDD@time4 


[ [ 
DStream == 4 datafrom | | datafrom | = datafrom | || datafrom -> 
time Oto 1 time 1to 2 time 2 to 3 time 3to 4 





图 17-2 
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17.4 项 目 技术 组 成 


此 项 目的 技术 组 成 包括 : CentOS 6.5 操作 系统 64 位 的 版 本 、FileZilla 软件 3.14 版 本 、MySQL 
数据 库 5.7 版 本 、HDEFS 分 布 式 文件 系统 2.7 版 本 、Spark 处 理 引擎 、IDEA 编程 工具 2018.1 版 本 、 
Python 前 端 开发 语言 等 ， 软 件 架构 如 图 17-3 所 示 。 





| Python | MySQL [Spark 
L IDEA 

















CentOST (E £ 


图 173 


17.5 项 目 实施 步 又 


17.5.1 第 一 步 : 运用 Kafka 产生 数据 


359801 | 打开 IDEA 工具 ， 选 择 File9New—Project—Maven, Aii Next 按钮 ， 如 图 17-4 所 示 。 


























Ws Project SDK: B 1.8 
va FX 

@ Android Create from archetype 
€ IntelliJ Platform Plugin 


M Maven 


@ Griffon 
— Scala 


otlin 


mpty Project 


Cancel 


图 174 
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379802 Á 输入 GroupId 和 Artifactld 的 值 ， 对 应 的 值 一 般 为 工程 的 名 称 ， 点 击 Next 按钮 ， 如 
图 17-5 所 示 。 








Groupld Spark Real Time 


Artifecild | Spark Real Time 


Version 1.0-SNAPSHOT 





图 17-5 


步 最 034 设置 工程 名 称 ， 输 入 工程 名 称 ， 如 图 17-6 所 示 ， 点 击 Finish 按钮 。 








Project name Spark Real Time 


Project location: CNidealC-2018.1 rojects\Spark_Real Time 


* More Settings 


Module name: Spark Real Time 


Content root C\idealC-2018.1.win\deaProjects\Spark_Real_Time 
Module file location; CNidealC-2018. WdeaProjectsXSpark. Real Time 


Project format idea (directory based) 


Previous Finish Cancel 





图 17-6 





F 





E 
FL 
+ 


#R04/ 设置 程序 包 属性 ， 进 入 File >Project Structure >Libraries 的 菜单 
选择 “Scala SDK”， 如 图 17-7 所 示 ， 点 击 OK 按钮 。 

步骤 054 修改 pom.xml 配置 文件 ， 修 改 文件 内 容 ， 并 执行 Import Changes 的 功能 ， 如 图 17-8 
所 示 ， 把 对 应 的 包 和 组 件 都 下 载 到 工程 内 。 
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B Project Structure 





Location Platform e 1 e Docs 
System Scala 
N 
2.10.0 
Libraries 


| Download Browse. Cancel 


Cancel 


图 17-7 


(9 Maven projects need to be imported x 
Import Changes Enable Auto-Import 





E 17-8 


修改 pom.xml 文件 的 代码 如 下 : 


<?xml version-"1.0" encoding-"UTF-8"?» 

Xproject xmlns-"http://maven.apache.org/POM/4.0.0" 
xmlns:xsi-"http://www.w3.0rg/2001/XMLSchema-instance" 
xsi:schemaLocation-"http://maven.apache.org/POM/4.0.0 

http://maven.apache.org/xsd/maven-4.0.0.xsd"» 

«modelVersion»4.0.0«/modelVersion» 

XgroupId»Spark Real Time«/groupId» 

XartifactId»Spark Real Time«/artifactId» 

«version»1.0-SNAPSHOT«/version» 

«name»$(project.artifactId)«/name» 

«properties» 
«maven.compiler.source»1.6«/maven.compiler.source» 
«maven.compiler.target»1.6«/maven.compiler.target» 
Xencoding»UTF-8«/encoding» 
Xscala.version»2.11.8«/scala.version? 
«spark.version»2.1.0«/spark.version» 
Xscala.compat.version»2.11«/scala.compat.version» 

«/properties» 
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«dependencies» 

«dependency» 
XgroupId»org.apache.spark«/groupId» 
X«artifactId»spark-core 2.10«/artifactlId» 
«version»$(spark.version]«/version» 

«/dependency» 

<dependency> 
XgroupId»org.scala-lang«/groupId» 
«artifactId»scala-library«/artifactId» 
«version»$(scala.version]«/version» 

</dependency> 

<dependency> 
XgroupId»org.apache.spark«/groupId» 
X«artifactId»spark-streaming 2.10«/artifactId» 
«version»$(spark.version)«/version» 

</dependency> 

<dependency> 
«groupId»org.apache.spark«/groupId» 
X«artifactId»spark-streaming-kafka-0-10 2.11«/artifactId» 
«version»2.1.0«/version» 

</dependency> 

<dependency> 
XgroupId»org.apache.kafka«/groupId» 
«artifactId»kafka 2.11«/artifactlId» 
«version»0.10.2.0«/version» 

</dependency> 

<dependency> 
<groupId>net.sf.json-lib</groupId> 
<artifactId>json-lib</artifactId> 
<version>2.4</version> 

</dependency> 

<dependency> 
<groupId>net.sf.json-lib</groupId> 
<artifactId>json-lib</artifactId> 
<version>2.4</version> 
<classifier>jdk15</classifier> 

</dependency> 

<dependency> 
<groupId>org.apache.commons</groupId> 
<artifactId>commons-lang3</artifactId> 
<version>3.1</version> 

</dependency> 

<dependency> 
<groupId>commons-beanutils</groupId> 
<artifactId>commons-beanutils</artifactId> 
<version>1.8.3</version> 

</dependency> 

<dependency> 
<groupId>commons-logging</groupId> 
<artifactId>commons-logging</artifactId> 
<version>1.1.1</version> 

</dependency> 

<dependency> 
<groupId>commons-collections</groupId> 
<artifactId>commons-collections</artifactId> 
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<version>3.2.1</version> 

</dependency> 
<dependency> 

<groupId>net .sf.ezmorph</groupId> 

<artifactId>ezmorph</artifactId> 

<version>1.0.6</version> 

</dependency> 

<dependency> 
<groupId>org.codehaus.jettison</groupId> 
<artifactId>jettison</artifactId> 
<version>1.3.8</version> 

</dependency> 

<dependency> 
<groupId>redis.clients</groupId> 

«artifactId»jedis«/artifactId» 

«version»2.7.0«/version» 

</dependency> 

<dependency> 
<groupId>org.apache.commons</groupId> 
<artifactId>commons-pool2</artifactId> 
<version>2.2</version> 

</dependency> 

<dependency> 

<groupId>junit</groupId> 

<artifactId>junit</artifactId> 

<version>4.11</version> 
<scope>test</scope> 

</dependency> 

<dependency> 
<groupId>org.specs2</groupId> 
<artifactId>specs2-core_$(scala.compat.version)</artifactId> 
<version>2.4.16</version> 
<scope>test</scope> 

</dependency> 

<dependency> 
<groupId>org.scalatest</groupId> 

«artifactId»scalatest $(scala.compat.version]«/artifactId» 

«version»2.2.4«/version» 

X«scope»test«/scope» 

«/dependency» 
«/dependencies» 
«build» 

«plugins» 

«plugin» 
XgroupId»net.alchim31.mavenc/groupId» 
«artifactId»scala-maven-plugin«/artifactId» 
«version»3.2.0«/version» 
«executions» 

«execution» 
Xid»compile-scala«/id» 
X«phase»compile«c/phase» 
«goals» 

Xgoal»add-source«/goal» 
Xgoal»compile«/goal» 
«/goals» 
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</execution> 
<execution> 
<id>test-compile-scala</id> 
<phase>test-compile</phase> 
«goals» 
Xgoal»add-source«/goal» 
Xgoal»testCompile«/goal» 
«/goals» 
«/execution» 
«/executions» 
«/plugin» 
X/plugins» 
«/build» 
«/project» 


步骤 064 新 建 Scala 程序 ， 在 src—main—java 目录 下 面 新 建 Scala 程序 ， 如 图 17-9 所 示 ， 新 
建 一 个 Scala 对 象 程 序 ， 取 名 为 KafkaProducero 


I] Spark Real Time - [Di\ntell IDEA 2017.2.3\workspace\Spark Real_Time] - pom.xml - Intelli) IDEA 2017.2.3 


File Edit View Navigate Code Analyze Refactor Build Run Tools VCS Window Help 
W Spark Real Time ) E= src ) ii main > E java 

















ri ÚP Project - Q3 17 | m Spark Real Time 
B» Bs Spark Real Ti telli) IDEA 2 work RTEA = z 
` orcum | ?xml version-^1.0^ encoding-^UTF-8^ ?^ 
idea 
Bets dome ven. apache. org/POM/4. 0. 0” 
X cut Cwl«x | fk Kotlin File/Class " 
TIO : orc Wima /ee =: on8/200 na oben To 
EE opy tre P 
E "i Copy Path Ctrlashiftac | Ë File m="http://maven. apache. org/POM 
a resc ii z 
E “os Copy Reference Ctrl+Alt+Shift+c | W° Scratch File  Ctri+Alt+Shift+Inset odelVersion> 
v P | (0 paste Ctrl+V Package 
和 === AP | PML File 
l Spark Raaj P enne H7 | iË package-infojava ie /groupId^ 
> illl External Librar, Find in Path... Ctrl+Shif+F d ^ 
Replace in Path- Ctrl+Shiftar | S HTML File .Timec/artifactId 
Analyze » | s Stylesheet |version 
图 17-9 


KafkaProducer.scala 文件 的 代码 如 下 : 


package main.java 
import java.util.Properties 
import org.codehaus.jettison.json.JSONObject 
import kafka.javaapi.producer.Producer 
import kafka.producer.KeyedMessage 
import kafka.producer.ProducerConfig 
import java.util.Random 
object KafkaProducer ( 
private val users - 
Array("ul","u2","u3","y4","u5","u6","u7", "98", "99", "u10") 
private val random - new Random() 
private var pointer - -1 
def getUserID(): String = ( 
pointer - pointer * 1 
if (pointer »- users.length) ( 
pointer - 0 
users (pointer) 
) else ( 
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users (pointer) 
} 
) 
def click(): Double = ( 
random.nextInt (10) 
) 
def main(args: Array[String]): Unit = ( 
val topic = "User_Events" 
val brokers = "localhost:9092" 
val props = new Properties () 
props.put("metadata.broker.list", brokers) 
props.put("serializer.class", "kafka.serializer.StringEncoder") 
val kafkaConfig = new ProducerConfig (props) 
val producer = new Producer[String, String] (kafkaConfig) 
while (true) ( 
val event - new JSONObject() 
event 
.put("User Id", getUserID) 
.put("Event Time", System.currentTimeMillis.toString) 
.put("Os Type", "IOS") 
.put("Click Count", click) 
producer.send(new KeyedMessage[String, String] (topic, 
event.toString)) 
println (" 消 息 发 送 : " + event) 
Thread.sleep(2000)  // 单 位 毫秒 





17.5.2. 第 二 步 : 运用 Spark 接收 数据 





3701 / 新 建 Scala 程序 ,在 src mainjava 目录 下 面 新 建 Scala 程序 ,新 建 一 个 ConnToRedis 





对 象 程序 ， 代 码 如 下 : 





import org.apache.commons.pool2.impl.GenericObjectPoolConfig 
import redis.clients.jedis.JedisPool 
object ConnToRedis extends Serializable ( 

println ("Start") 

val redisHost - "127.0.0.1" 

val redisPort - 6379 

val redisTimeout - 40000 


lazy val pool = new JedisPool (new GenericObjectPoolConfig(), redisHost, 


redisPort, redisTimeout) 
lazy val hook = new Thread ( 
override def run - ( 
println (" 开 始 执行 线程 : " + this) 
pool.destroy() 
) 
} 


println ("Over") 
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package main.java 
import org.apache.spark.streaming.kafka010.KafkaUtils 
import 


org.apache.spark.streaming.kafka010.LocationStrategies.PreferConsistent 
import org.apache.spark.streaming.kafka010.ConsumerStrategies.Subscribe 
import org.apache.kafka.common.serialization.StringDeserializer 


import net.sf.json.JSONObject 
import org.apache.spark.SparkConf 
import org.apache.spark.streaming.Seconds 
import org.apache.spark.streaming.StreamingContext 
object UserClickAnalytics ( 
def main(args: Array[String]): Unit - ( 
var masterUrl - "local[2]" 
var conf - new 
SparkConf().setMaster(masterUrl).setAppName ("Spark Real Time" 
var ssc-new StreamingContext (conf, Seconds (4)) ; 
var topic-Array("User Events"); 
var group-"con-consumer-group" 
val kafkaParam - Map( 
"bootstrap.servers" -> "localhost:9092", 
"key.deserializer" -> classOf[StringDeserializer], 
"value.deserializer" -> classOf[StringDeserializer], 
"group.id" -> group, 
"auto.offset.reset" -> "latest", 
"enable.auto.commit" -» (false: java.lang.Boolean) 
); 
val dbIndex = 1 
val clickHashKey = "App::User::Click" 





var stream-KafkaUtils.createDirectStream[String,String] (ssc, 


PreferConsistent,Subscribe[String,String] (topic,kafkaParam)) 
val events = stream.flatMap(line => ( 
val data - JSONObject.fromObject (line.value()) 
Some (data) 
)) 


val userClicks = events.map(x => (x.getString("User Id"), 


x.getInt("Click Count"))).reduceByKey( + ) 
userClicks.foreachRDD(rdd => ( 
rdd.foreachPartition(partitionOfRecords => ( 
partitionOfRecords.foreach(pair => ( 
val uid - pair. 1 
val clickCount - pair. 2 
val jedis = ConnToRedis.pool.getResource 
jedis.select (dbIndex) 
jedis.hincrBy(clickHashKey, uid, clickCount) 
ConnToRedis.pool.returnResource(jedis) 
} 
}) 
n 
ssc.start(); 
Ssc.awaitTermination(); 
printin ("结束 ") 








210 | Cloudera Hadoop 大 数据 平台 实战 指南 








步骤 034 添加 Artifact 包 ， 具 体 路 径 为 File-Project Structure->Artifacts， 点 击 “+”， 然 后 点 





Eh 


H OK 按钮 ， 操 作 步 骤 如 图 17-10 所 示 。 


Empty 


From modules with depend 


$ Other 


Artifacts 


删除 一 些 不 需要 的 服务 ， 最 终 


Artifacts 





图 17-10 


结果 如 图 17-11 所 示 。 


Name: Spark Real Timejar 


)utput directory: | CNidealC-2018.1 winVIdeaProjectSpark Real Time\out\artifacts\Spa 
Include in project build 
Output Layout Pre-processing Post-processing 


F ND l Available Elements 


具 Spa r w Bm Spark Real Time 
Bz ‘Spar c lili scala-sdk-2.11.€ 





图 17-11 





步 又 04 生成 Artifact 包 ,点 
所 示 。 


t Build Build Artifacts, 可 以 生成 对 应 的 JAR 包 文件 ,如 图 17-12 
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Run Tools 


Build Artifact 
> Spark Real Timejar > Action 


Build 
Rebuild 
Clean 
Edit 





图 17-12 
步骤 054 在 指定 的 目录 下 面 生 成 了 JAR 文件 ， 最 终结 果 如 图 17-13 所 示 。 
\idealC-2018.1.win\ldeaProjects\Spark_Real TimeYoutVartifactsYSpark Real Time jar| 


名 称 类 型 


B Spark Real Timejar 360 压 缩 





图 17-13 


17.5.8 第 三 步 : 安装 Redis 软件 
步骤 014 把 安装 软件 上 传 到 指定 的 远程 服务 器 上 ， 如 图 17-14 所 示 。 


[E] 192.168.66.135 gilt, - sftp://root@192.168.66.135 - FileZilla 一 口 X 
KHF RE 查看 (V) HAT) 服务 器 (S$) 28) 帮助 (H) 有 新 版 了 ! (N) 
a -Iesmesme«eius*A 

| &eav:[ mW): | | ane | [S259] - 























^ 


` 






























/home " 
home ^ 
&-/1 dp 
人 data-integration 
? lost+found E 
文件 名 文件 大 小 文件 型 * ^ = 
B 文件 名 文件 大 小 “文件 尖 型 R. 权限 所 有 者 /组 
jsonjar xxx £ ` 
kafka jar um 2« dp 文件 夫 20.. drwx-—— dp dp 
sedis jar xem 2. data-integration 文件 到 20. drwxr-xr-x root root 
spark jar pA 2. lost«found root root. 
]idea-2018.1.win-x.. 603,323,2... DOWNLOA. 2. 
E idea-2018.1.win-x... 3016 CFG 文件 2... 
SB redis-4.0.2.tar.gz 1713990 WinRAR E... 2. v 
[ase 1 tc. ones rao 8 EET 1 人 文件 。 大 小 总 共 1,713,090 F5 
服务 器 /本 地 文件 方向 ”远程 文件 大 小 优先 级 RS 
| 列队 的 文件 





am us .. 





图 17-14 





3802 进入 到 远程 环境 ， 使 用 CRT IR, ssh 到 Linux 环境 ， 如 图 17-15 所 示 。 
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192.168.66.135 虚拟 机 - SecureCRT -— Hd X 
| 文件 ( SSE) SEV) ”选项 (O) em 脚本 (S) TE) 窗口 (W) 帮助 (H) 
| 33 SJ [1 SJ 2) ^ <AR> 48 853745 e m Ë 














| ^ 192.168.66.135 虚拟 机 x 4b 





就 绪 ssh2: AES-256-CTR 2, 18 5 行 ,77 列 VT100 AG 数字 





图 17-15 
步骤 034 运行 下 面 的 安装 命令 ， 具体 的 脚本 如 下 : 


## 进 入 Redis 安装 目录 

cd /home/ 

tar xzf redis-4.0.2.tar.gz 

## 进 入 Redis 安装 目录 

cd redis-4.0.2 

## 编 译 

make MALLOC-libc 

## 进 入 src 文件 夹 ， 进 行 Redis 安装 

cd /home/redis-4.0.2/src/ 

make install PREFIX-/usr/local/redis 

## 创 建文 件 夹 

mkdir -p /usr/local/redis/etc 

##cp 相关 文件 到 redis 目录 ，cp 前 面 加 “\ ”表示 复 制 直接 覆 六 不 进行 询问 

cp /home/redis-4.0.2/redis.conf /usr/local/redis/etc/ 

##cp 相关 文件 到 redis 目录 

cd /home/redis-4.0.2/src 

\cp mkreleasehdr.sh redis-benchmark redis-check-aof redis-check-rdb 
redis-cli redis-sentinel redis-server /usr/local/redis/bin/ 


步骤 044 修改 配置 文件 ， 具 体 的 脚本 如 下 : 
## 编 辑 conf 文件 ， 将 daemonize 属性 改 为 yes， 表 明 需 要 在 后 台 运 行 


vi /usr/local/redis/etc/redis.conf 


5R05/ 开启 远程 连接 Redis 服务 ， 脚 本 如 下 : 
## 开 局 脚本 


cd /usr/local/redis/etc 
vi redis.conf 

# 注 释 掉 bind 127.0.0.1 

# 修 改 protected-mode 为 no 


步 最 064 启动 Redis 服务 ， 具 体 脚本 如 下 ， 启 动 结果 如 图 17-16 所 示 。 




















## 启 动 脚本 
cd /usr/local/redis/bin 
./redis-server /usr/local/redis/etc/redis.conf 
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192.168.66.135 虚拟 机 - SecureCRT 
XHA SSE SEV 选项 (0) SGD ES TR() SOW) 帮助 (H) 








awo Atk ansa sw. v3? e 
$ 192.168.66.135 虚拟 机 x 4 





24.683 # Redis version-4.0.2, bits-64, commit-00000000, modified-0, pid-39278, just started 4 
24.683 # warning: no config Ë file specified, using the default config. In order to specify a 

e redis-server 7path/to/redis. conf 

S92787M 25 apr 17:18:24.685 * Increased maximum number of open files to 10032 (it was originally set to 1024). 






Redis 4.0.2 (00000000/0) 64 bit 


Running in standalone mode 
Pi 379 











PID: 35278 





http: //redis. io 

















39278:M 25 Apr 17:18:24.692 # WARNING: The TP backlog setting of 511 cannot be enforced because /proc/sys/net/co 
Te/somaxconn is set to the lower value of 12 

39271 25 Apr 1 24.692 # Server Sit ralized 

39278:M 25 Apr 1 24.692 WARNING overcommit memory is set to 0! Background save may fail under low memory co 
ndition. To fix this issue add 'vm.overcommit memory = 1' to /etc/sysctl.Conf and then reboot or run the command 
SSctl vm. overconmit.memorysi" for this to take effect. 

39278: 25 Apr 17:18:24.692 # WARNING you have Transparent Huge Pages (THP) support enabled in your kernel. This 
will create latency and memory usage issues with Redis. To fix this issue run the command 'echo never > /sys/kern 
el/mm/transparent hugepage/enabled' as root, and add it to your /etc/rc.local in order to retain the setting afte 
r a reboot. Redis must be restarted after THP is disabled. 

39278:M 25 Apr 17:18:24.692 * Ready to accept connections 














图 17-16 
3307/4 用 客户 端 测试 Redis 服务 ， 如 图 17-17 所 示 。 




















192.168.66.135 虚拟 机 (1) - SecureCRT = n x 
XHA SSE SEV) AO fee) 脚本 (Ss) 工具 (D SAWM) 
帮助 (H) 

IDARE Atr ë 








图 17-17 


脚本 如 下 : 


## 开 启 脚 本 
cd /usr/local/redis/bin 
./redis-cli 


步 又 08 4 测试 例子 ， 脚 本 如 下 : 


## 测 试 例子 脚本 

[root@hadoop bin]#./redis-cli 
127.0.0.1:6379» keys * 

(empty list or set) 
127.0.0.1:6379» lpush mylist 0 
(integer) 1 

127.0.0.1:6379» GET mylist 

0 
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ROIA 这 个 步骤 ， 只 有 在 Redis 进程 被 占用 了 ， 才 需要 执行 ， 具体 脚本 如 下 : 





# 查 找 redis 占用 的 进程 rp 

ps -eflgrep redis 

# 杀 死 redis HFE, pid 替换 成 查找 到 的 rp 数据 
kill -9 pid 

URSI 


cd /usr/local/redis/bin 
./redis-server /usr/local/redis/etc/redis.conf 





17.5.8 ZWF: 准备 程序 运行 环境 


359801 4 通过 浏览 器 输入 http:/127.0.0.1:7180, 默认 的 账号 和 密码 都 为 admin, 登录 到 CM Ë 
理 页 面 ， 如 图 17-18 所 示 。 


€. G O 19216852177 180/cmi/on: rem 
cloudera T f RE- RA DEC 4 RE- EE [I3 o ELT 


AUS O@msmRem  AHsREER() OMAEMSST 





























20194201, 30541 F CST 


状态 [E 图 表 29 


CA 


Cd 
+ AMHA: Host Montor EF 


v O Cluster 1 


mi 

J rum m 

T ma v Cluster 1 

o aw BBO ~ 群生 CPU BENA IO 
mu - 
m 
= 
ma 
[c] 
gma erepta 10 





图 17-18 


3:802 / 启动 ZooKeeper， 进 入 到 菜单 页 面 ， 点 击 “ 启 动 ” 按 钮 ， 如 图 17-19 所 示 。 


685.217; 180/cmf/se t|: 





cloudera DR EN Eg ER XH- A admin 
v 
ü 

"ELLE 










WX Wu WE OS aN E WX HS OWN OE OG as meu 
à ZooKeeper O mman Gl mx. 
Awa BN osẹ ^NH- omn amar 


ZooKeeper 汇总 201048252, 30610 下 = CsT — BM SODA 1484 2484 64d 12464 1 天 P G- 





== server (localhost) (未 知 ) 


GP AH 


Ld 
* XGREDHESS: Host tontor 于 运行 

















已 用 的 角色 CPU Psi mesma 
运行 状况 历史 记录 
Event Server 当前 不 可 
状态 摘要 
Server O 1 未 知 返 行 状况 
mexssuemeuge 


图 17-19 
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步骤 03 启动 Kafka， 进 入 到 服务 的 菜单 ， 点 击 “ 启 动 ” 按 钮 ， 如 图 17-20 所 示 。 








ei | @ 1921685217: 180/cmt/services/S6/statu *| 
cloudera XA me- RÀ PE AW EE- WE LEE ELO 
Ez 2018 年 4 月 26 日 , 236 44 下午- 30644 下 午 CS vid 








0140 nS n nS WM o WH — 0245 — 9220 — 0225 BH Rh — 0040 0245 — 0230 0255 OPM é“ Dua < 





k Kafka O ER 


Aus me OS FRE- eus mue 








运行 状况 测试 201854268 30644 Fe CST — BE 305) 1 小 91 2 小 时 6 小 时 127 1X Ww 30d G~- 
运行 状况 检查 当前 不 可 用 ， EE Serce monio iik, x 
运行 状况 历史 记录 * JORSUEBUR. Host Monitor PEF 
Event Server SAFT, SE 

信息 事件 重要 事件 率 各 警报 率 
状态 摘要 
Katka broker. O 13:80 EHIOR 

图 17-20 


步骤 04 启动 Redis， 启 动 命令 请 执行 以 下 脚本 : 


## 进 入 Redis 安装 目录 

cd /usr/local/redis/bin 

## 启 动 Redis 服务 

./redis-server /usr/local/redis/etc/redis.conf 
## 查 看 进程 是 否 正 常 启动 


ps aux |grep redis 





启动 后 如 图 17-21 所 示 。 注 意 : 此 命令 窗口 不 要 关闭 。 








[Ë 192 168.5217 KIM. - scii es 

XA) WAKE) EEV) SMO) CRT) GREC) IAY SOW) MEX 

FETTE ^^ 85351 9m Pi 
DUET BEES an 
[rootéhadoop bin]£ ./redis-server ^ 


10167:C 26 Apr 14:18:20.137 # 0000000000000 Redis is starting 0000000000000 

10167:C 26 Apr 14:18:20.137 # Redis versionz4.0.2, bits=64, Commit-00000000, modifiedz0, 

pid-10167, just started 

10167:C 26 Apr 14:18:20.137 # warning: no config file specified, using the default config 
. In order to specify a config file use ./redis-server /path/to/redis.conf 

10167:M 26 Apr 14:18:20.138 * Increased maximum number of open files to 10032 (it was ori 
ginally set to 1024). 


Redis 4.0.2 (00000000/0) 64 bit 
Running in standalone mode 


Port: 6379 
PID: 10167 


http://redis.io 











10167:M 26 Apr 14:18:20.141 # WARNING: The TCP backlog setting of 511 cannot be enforced ~ 


图 1721 
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17.5.5 AD: 远程 执行 Spark 程序 


步骤 014 进入 到 远程 环境 。 使 用 CRT 工具 ， 进 入 到 Spark 的 开发 环境 ， 如 图 17-22 所 示 。 


(Eg 1621665217 EN @) - SecureCRT — x 
Xn mac) SEM WAO) (eT) ES IAY SOW wm 

IDDIA pnn 653 Z22321 ° E 

<Z12.168.5.217 ÆRIN, |  192.1685.217 929.01 | 1921685217 EP @ x nn 
[[rootáhadoop ~]# hadoop fs -TS / ^ 
Found 27 items 




































—rwxrwxrwx 3 ma supergroup 2016-06-23 08:43 /aa 

drwxrwxrwt hbase hbase 2017-07-04 15:50 /hbase 
drwxrwxrwt ma supergroup 2017-07-04 11:21 /hdfs 
drwxrwxrwx root supergroup 2017-04-05 16:44 /input 


2017-06-28 18:10 /input blacklist 
29 14:04 /input spark 


drwxrwxrvx  - root supergroup 
- :53 /input spark streamin 


drwxrwxrwx root supergroup 
drwxrwxrwx root supergrou 






ooooooo 





E1722 


3:02 / 通过 FileZilla 这 个 FTP 工具 把 程序 所 用 的 JAR 包 上 传 到 /home/hadoop/spark 目录 下 
面 ， 如 图 17-23 所 示 。 


























文件 (F) MAO BEV 传输 [D 服务 器 (5) BEW MAH ARX ! N) 
v -OOBE S sake EnA 

HNH): APAW: TAW: 

[ote WERE RAUA.. 

juve. 5I" /home/hadoop"R3 ERAY 

| 状态 已 从 服务 器 新 开 

状态 ; 正在 从 /homeyhadoopy/spark Mff: 7 个 文件 














运程 站 点 /home/hadoop/spark 





Cp anifacls 
+ Cant Dani T. 





文件 大 小 文件 类 型 7 ç 文件 大 小 文件 类 型 














15.391 360 BB Spark Real Timejar 18340 360/58 


图 1723 


#R03/ 上 传 Kafka 等 工具 的 JAR 包 到 服务 器 。 在 /home/hadoop/spark 目录 下 面 新 建 一 个 jar 
文件 夹 ， 把 对 应 的 JAR 包 全 部 上 传 到 这 个 目录 下 面 ， 如 图 17-24 所 示 。 










文件 (F) MAD EEV AM SRS HA PME) AET (ON) 
Me EEA TEET 

Emun: BAZU: SEW: OP: PEER -+ 

[iz ino directory rhomerhadoop/spark jar A 
|. PIH" /home/hadoop/spark/jar'iS BEEE 
[AE 已 从 服务 器 盯 开 

| 状态 cups ` 
| 192.168.1,105 ctt. sftp//hadoopi2192,168.1.105 - 192.168.1.105 JE!39. - sftp//hadoop@192.168.1.105 - | 
Tomemadoop/sparhar E 











RAN RARE Da 

216,259 360: 216259 360598 2018 

[I 2123 360536 2018 

11-01020jar x 1241-0102 5641281 360 2018 
kofka-clients-01020j 946811 3607 2018 
|b-223jdkiSja — 1484 -223j 148490 3605: 2018 
553762 3608 2018- 

71826 360R 2018- 

111,969 360558 2018- 

96221 360F 2018. 

245274 360F 2018. 

/mmons-httpcient-3.1jar 305001 36057 2018. 

immons-beanutils-1.7 Ojar. 18671 360r 2018. 





图 1724 
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步骤 044 执行 Spark 脚本 命令 ， 实 时 产生 数据 ， 此 程序 会 每 隔 几 秒 实时 产生 数据 。 
执行 的 命令 如 下 : 


spark-submit --master spark://127.0.0.1:7077 --class 
main.java.KafkaProducer --driver-class-path :/home/hadoop/spark/jar/* 
--executor-memory 500m /home/hadoop/spark/Spark Real Time.jar 











结果 如 图 17-25 所 示 。 注 意 : 此 命令 窗口 不 要 关闭 。 


18/06/06 17:10:19 WARN BrokerPartitionInfo: Error while fetching metadata [{TopicMetadata for topic user 
Events -» 
No partition metadata for topic User_Events due to Dra ses paka so mo errors.LeaderNotAvailableExce 
prioni] for topic [User_Events]: class gra eed kafka aderNotAvai lableE ception 
/06 1. 19 ERROR DefaultEvent le p due to: Fail 
h topic metadata for top 
1 


IOS","Click : 
IOS", "click. 


i Event Time 
Event ; Time 


"Event. Time 
{"User_Id "Event_Time 
{"User_Id"; i 





图 17-25 








步骤 054 再 打开 一 个 ssh 窗口 ， 执 行 Spark 脚本 命令 ， 实 时 接收 数据 ， 执 行 的 命令 如 下 : 








spark-submit --master spark://127.0.0.1:7077 --class 
main.java.UserClickAnalytics --driver-class-path :/home/hadoop/spark/jar/* 
--executor-memory 500m /home/hadoop/spark/Spark Real Time.jar 





展现 的 结果 如 图 17-26 所 示 。 


ClickAnalytics --driver-c ass-path /home/hadoop/spark/jar/* --executor-memory 500m /home/haqcR 
spark/Spark Real Time. 
06/06 19 4 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform 
using builtin-java classes where applicable 
O! WARN Utils: Your hostname, dblab-virtualBox olves to a loopback address: 
using ` šI instead (on interface ens33) 
19:05 WARN : Set SPARK LOCAL i ou need to bind to another address 
KafkaUtil e e ommi o e executor 
Kafkautil e i o none utor 
KafkaUtils: o d executor group. to spar! con-consumer- 


KafkaUtils: "ridi receive.buffer.bytes to 655 KAFKA-3135 
输出 获 
{"User_ Id”; - 


/ 2]start 
"Event. Time" :" 


"Event Time": 


IOS", 


"Event. Time Os. Type 





图 17-26 


步骤 064 使 用 Redis Desktop Manager 此 客户 端 工具 连接 到 远程 的 Redis 数据 库 ， 输 入 名 称 
册 名 称 Host、 端 口号 Port 等 信息 ， 如 图 17-27 所 示 。 
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Ss. | sse 





192. 168. 1. 105 


: |192. 168. 1. 105 





lest Connectic| 














图 1727 


3539807 4 进入 到 Redis 的 dbl 数据 库 ， 可 以 看 见 App::User:Click 里 面 已 经 产生 实时 数据 ， 如 
17-28 所 示 。 





4 € 192.1831. [05 11... pp:iUser: :Click X 
Size: 10 TIL:-1 — Rename || @Delete 


| “Add ron 





Ë App: :User: :C1«* Delete row 
[S Reload Value 
Page [1 o: 
| Set Page 


[mom 





View as; Plain = 


View as: Plain + 





mhash 




















三 Import / Expe% 十 Conneet to Redis Server 





图 17-28 


17.5.6 ”第 六 步 : 编写 Python 实现 可 视 化 


35:801 / 打开 Pycharm 代码 编辑 器 ， 并 新 建 一 个 工程 ， 如 图 17-29 所 示 。 
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Location: DAPyCharm Community Edition 2018.1.4VprojectNProject Demal 


> Project Interpreter: Python 3.6 


Create Cancel 


图 17-29 


步 又 024 安装 Redis 包 ， 在 Pycharm 主页 面 点 击 File， 选 择 Settings， 进 入 设置 项 ， 在 设置 页 


输入 Project， 查 找 Project Interpreter， 找 到 “redis” 字 样 ， 双 击 ， 点 击 安装 包 ， 如 图 17-30 所 示 。 


Li 

Qa- Project: Project Demo ! Project Interpreter & 

> Appearance & Behavior 
Keymap 

P Editor 
Plugins 

P. Version Control 

Y Project: Project Demo 
Pr terpreter 
Project Structure 

> Build, Execution, Deployment 

> Languages & Frameworks 


P Tools 


图 17-30 


新 建 一 个 .py 的 程序 ， 取 名 为 Draw_Redis， 如 图 17-31 所 示 。 
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B roject Demo [DAPyCharm Community Edition 2018.1 AVprojectiProject. Demo] - PyCharm -0 
ii Project Demo 
LS T: nal Libraries 
[:H and Consoles 
f] 1731 
Python 的 代码 如 下 : 





print("Start,.... ") 
import redis 
print ("ligi 1") 
pool = redis.ConnectionPool(host-'192.168.1.105', port-6379 ,db-1) 
r = redis.Redis(connection pool-pool) 
print (" 获 取 name 对 应 hash 的 所 有 的 key: ") 
keys = r.hkeys ("App::User: :Click") 
print (keys) 
print ("获取 name 对 应 hash 的 所 有 的 value: ") 
hvals = r.hvals("App::User::Click") 
print (hvals) 
print ("截取 每 个 key 对 应 value 值 的 第 3 位 到 倒数 第 1 位 : ") 
ul = int(str(r.hget("App::User::Click","u1"))[2:-1]) 
u2 = int(str(r.hget("App::User::Click","u2"))[2:-1]) 
u3 = int(str(r.hget("App::User 33ck","53"))[22—1]) 
u4 = int(str(r.hget("App::User Eick","u4"))[2:—-1]) 
u5 - int(str(r.hget("App::User dick","u5"))[2:-1]) 
2 
2 
2 
2 
) 





u6 = int(str(r.hget("App::User Tick","u6"))[2:-1]) 
u7 = int(str(r.hget("App::User::Click","u7"))[2:-1]) 
u8 = int(str(r.hget("App::User Téck","48"y3 [2:—11) 
u9 = int(str(r.hget("App::User::Click","u9")) [2:-1]) 
ul0 = int(str(r.hget("App::User::Click","u10")) [2:-1]) 
import matplotlib.pyplot as plt 

values list = [u1,u2,u3,u4,u5,u6,u7,u8,u9,u10 
print(values list) 

print (" 画 柱状 图 : ") 

plt.bar(range(len(keys)), values list, color-'rgb') 
plt.show() 











#m04/ 保存 代码 。 
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17.5.7 最 后 一 步 : 执行 Python 程序 











步骤 01 打开 Pycharm 工具 ， 右 击 打开 菜单 ， 执 行 代码 ， 如 图 17-32 所 示 。 

















Project Demo DAPyChamm Communy Edition 2016.1 ` Mew Redis py Project Deme] - Pycharm 
s VCS Window Help 


[S] EID 





图 17-32 


步 野 024 对 执行 结果 进行 分 析 ， 如 图 17-33 所 示 。 





图 17-33 
5m03/ 运行 程序 后 ， 产 生 结果 图 片 ， 如 图 1734 所 示 。 此 图 中 ， 横 轴 表 示 用 户 编号 ， 纵 轴 









































表示 用 户 点 击 网 页 的 点 击 数量 。 
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0 2 


x=1.95714  y-92.7251 





图 17-34 


17.6 项 目 总 结 


本 章 的 示例 项 目 运 用 了 Kafka. Spark Streaming 等 实时 的 技术 框架 ， 让 读者 能 了 解 实 时 分 析 的 
原理 ， 认 识 到 实时 分 析 的 技术 特点 和 难点 。 学 完 本 章 可 以 对 Kafka 实时 产生 数据 的 技术 有 个 更 深层 
次 的 认 知 , 熟练 掌握 Redis 这 个 内 存 数据 库 的 原理 和 实际 操作 , 熟练 掌握 Spark Streaming 实时 处 理 
技术 ， 熟 悉 Python 语言 ， 掌 握 Python 在 可 视 化 方面 的 技术 和 技能 。 仔 细 琢 磨 这 个 项 目 在 日 后 的 工 
作 学 习 中 有 特别 大 的 帮助 。 


第 18 章 


大 数据 实战 案例 : 用 户 日 志 综合 分 析 项 目 


18.1 项 目 背 景 介 绍 


在 互联 网 应 用 中 ， 其 基本 的 数据 来 源 都 是 日 志 数据 。 采 集 用 户 上 网 的 操作 日 志 信息 ， 包 括 登 
录 时 间 、 用 户 编号 、IP Hhhb. ERER. Ein DU EB ed BOR. eu 22 09 U ja] H aX 
据 、 统 计 网 页 的 浏览 量 、 访 问 的 用 户 数 、 访 问 的 人 P 数量 、 跳 出 用 户 数 等 业务 指标 。 

日 志 分 析 的 应 用 场景 还 有 : 发 现 哪些 用 户 频 繁 的 登录 ; 再 比如 哪些 用 户 登录 的 时 长 是 特别 多 
的 , 表示 这 些 用 户 算是 老 铁 忠 臣 ; 再 比如 哪些 用 户 平均 每 月 登录 次 数 超过 一 定 阀 值 , 表示 是 老 用 户 。 
可 以 针对 这 些 用 户 做 360 度 无 死角 的 个 性 化 标签 ， 再 推出 个 性 化 的 营销 策略 。 














182 项 目 设计 目的 


本 章 的 用 户 日 志 综 合 分 析 项 目 涵盖 Linux、HDFS、MySQL、Sqoop、HBase、Hive、Kettle、 
Python 等 语言 和 工具 的 使 用 方法 。 通 过 本 项 目 ， 将 有 助 于 学 习 综合 运用 大 数据 课程 知识 以 及 各 种 
工具 软件 ， 实 现 数据 全 流程 操作 。 通 过 训练 此 项 目 ， 可 以 达到 如 下 目的 : 

e 2k HBase, Hive, Sqoop. Kettle, Python 等 软件 的 安装 和 使 用 。 

e 动手 实 操 Linux 到 HDFS 的 过 程 。 

° 熟悉 MySQL 创建 表 等 实际 操作 。 
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实际 操作 Sqoop 的 数据 操作 。 

了 解 HBase 的 基本 原理 。 

动手 操作 HBase 创建 表 的 过 程 。 

了 解 Hive 数据 仓库 的 原理 。 

动手 实 操 Hive 创建 表 等 。 

学 会 使 用 Kettle 实现 简单 的 ETL 过 程 。 
了 解 什么 是 Python 开发 语言 。 

动手 实际 操作 使 用 Python 运算 例子 。 
实 操 编写 Python 画图 的 可 视 化 程序 。 


18.3 项 目 技术 架构 和 组 成 


本 项 目 只 是 希望 得 到 数据 的 分 析 结 果 ， 对 处 理 的 时 间 要 求 不 严格 ， 就 可 以 采用 离线 处 理 的 方 
式 ， 比 如 我 们 可 以 先 将 日 志 数据 采集 到 HDFS 中 ， 之 后 再 进一步 使 用 MapReduce、Hive 等 来 对 数 
据 进行 分 析 ， 架 构 如 图 18-1 所 示 。 


De ss 
HBase A» I 

S^ 导入 分 析 TS <“ 
时 


网 站 用 户 日 志 数据 仓库 Hive MySQL 可 视 化 分 析 
Ex 
“S G 
SQL 吉 询 分 析 
图 18-1 

此 项 目的 技术 组 成 包括 : 
* Linux 系统 CentOS 6.564 位 版 本 。 
° FTP AF 3.14 版 本 。 
° 关系 型 数据 库 MySQLS.6 版 本 。 
° HDFS 分 布 式 文件 系统 。 
e° 数据 处 理工 具 Kettle。 
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数据 仓库 Hive。 

NoSQL 数据 库 HBase。 

大 数据 量 的 ETL 工具 Sqoop。 
Python 3.6 前 端 开发 语言 等 。 


为 了 降低 复杂 度 ， 本 项 目 做 了 简化 处 理 ， 以 便 读者 掌握 大 数据 基础 组 件 技术 。 


18.4 项 目 实施 步 又 


18.4.1 第 一 步 : 本 地 数据 FTP 到 Linux 环境 
通过 FTP 工具 把 本 地 的 数据 上 传 到 Linux 环境 ， 如 图 18-2 所 示 。 


XHP 编辑 (E) 查看 (V) FAM BSES) 书签 (B) HWH) ART ! (N) 
u + e lm A VE) 
EUH): BAZU: BSW: 


IRE: Listing directory /root/hadoop. 
IRS: 列 出 rootWhadoop” 的 呈 录 成 功 








v | 后 二 站 坊 /root/hadoop 
P guava-11.0.2jar 
È hadoop 


trm 
文件 大 小 Zam o [xem — ^ 文件 大 小 文件 兴 型 


> 


E 
log 2018-05-02 14 2,705,541 文本 文档 demo bd 1121 文本 文档 
log 2018-05-03.0«t 2,704041 文本 文档 loq_2018-05-01.txt 2,707,250. 文本 文档 
log. 2018-05-04.txt. 2,720307 JERA log_2018-05-02.txt 2,705,541 文本 文档 
loq 2018-05-01.bd 2,707,250 文本 文档 log 2018-05-03.txt 2,704041 文本 文档 

a EEE 3 oo 2018-05-04bt 2720307 suu 


< > |< 
选择 了 1 个 文件 。 大 小 总 共 : 1121-05 5 个 文件 ,大 小 总共 10,838,260 F5 


服务 器 /本 地 文件 方向 远程 文件 


< 
列队 的 文件 RER NE (5) 





ARNAS 


图 18-2 


18.4.2 第 二 步 : Linux 数据 上 传 到 HDFS 


把 Linux 环境 下 的 数据 上 传 到 HDFS， 请 执行 以 下 命令 : 


# 删 除 目录 

hadoop fs -rmr /input log 

# 新 建 HDFS 目录 

hadoop fs -mkdir /input log 

# 删 除 HDFS 文件 

hadoop fs -rmr /input log/demo.txt 

# 上 传 本 地 Linux 数据 文件 到 HDFS 目录 

hadoop fs -put /root/hadoop/demo.txt /input log 
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# 确 定 是 否 上 传 成 功 
hadoop fs -ls /input log 





操作 界面 如 图 18-3 所 示 。 





es 192.16.1.106 - SecureCRT -uEM 
1 
文件 (P SAH EEV 选项 (0) FAM HEO 工具 (D SOW EDH) I 


| 33965239 Ait: Ah aug9351 9H al 





log : I 
# hadoop fs -ls /input_log 
1 root supergr 1121 2018 
/input. log/ 
Ghadoop ~]# 








18.4.3 第 三 步 : 使 用 Hive 访问 HDFS 数据 








步骤 014 建立 一 张 Hive 表 , 需要 将 数据 存 入 Hive 里 面 ， 新 建 一 张 表 。 


= 


请 注意 确定 映射 的 HDFS 位 置 ，HDFS 数据 文件 存放 的 位 置 是 /input_ log， 执 行 的 脚本 如 下 : 





#### 直 接 输 入 hive 就 可 以 进入 hive shell 命令 界面 

hive 

Ups Hive 数据 库 

hive»create database 10g20180714; 

#### 使 用 数据 库 

hive>use 10g20180714; 

HOUSE Hive 表 ， 并 指定 HDFS 数据 存放 路 径 

hive>drop table t log; 

hive»create external table t log(ip string, time string, url address 
string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '|' location '/input log' ; 

ttt des 


hive»select * from t log limit 10 ; 











执行 的 样式 如 图 18-4 所 示 。 


m 192 165 1.106 (1) - SecureCRT. = "is 
J| AA REO EEV 选项 (0) AM ENS) 工具 (0 SOW) FAH 


:J SJ [d (2 28] It: A3 453 igt em zl 
192.168.1.10€ 192.168.1.106 (1) x 4 
hive> drop table t_log; 
oK 


gip string, ti 
ORMAT DELIM 
'/input_ 











查看 数据 的 页 面 ， 如 图 18-5 所 示 。 
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hive> select * from t_log limit 10 ; 


image: 
/ image: 


sour 
.php?mod=register 
/source 
image/ 
5 2 : W om/common, 
Time taken: . 424 o M 
hive> | 





图 18-5 


502 / 使 用 Hive 的 统计 语言 ， 统 计 用 户 对 
有 用 户 浏览 页 面 的 总 和 ，1 个 用 户 每 次 打开 1 个 















































页 浏览 量 PageViews, 简称 PV。PV 指 的 是 所 
会 被 记录 1 次 。 运 行 的 Hive 脚本 如 下 : 









































HHHOISE Hive X 
hive»create table t log pv as select count(1) as pv from t log ; 
HOHEÉEE Hive 表 的 数据 


; 
hive»select * from t log pv ; 


; 








执行 此 脚本 的 吉 果 如 图 18-6 所 示 。 


> create table t_log_pv as s ct count(1) as pv from t log 
jobs = 1 


launching Job 1 out of 1 
Number of reduce tasks determined at compile time: 
In order to change the averaqe load for 
exec. reducers. bytes . p 

) limit the maximum numb 

ec, reducers .max-«numt 


set a constant number 
set mapreduce. job. reduc 


ucer (in bytes 
umber> 
ducers: 





of reducers: 
<number> 


图 18-6 


























Hive 统计 语言 ， 统 计 注 册 用 户 数 RegisteredUsers ， 简 称 RU， 表 示 用 户 访问 注 
册 的 页 面 的 个 数 。 肢 本 如 下 : 



































pel: Hive X 


hive»create table t log ru as select count (1) as reguser from t log where 
instr(url address, 'member.php?mod-register')»0 
hive»select * from t log ru 





执行 此 脚本 的 结果 如 图 18-7 所 示 。 


log ru as select count(1) as reguser from t r(urT, "member. php?mod=reg 


http://1ocalhost:80 xy/application.. 


/bin/hadoop job -kill job 1531 




















304/ 使 








Hive 统计 语言 ,统计 访问 的 人 P 数量 ,表示 某 个 时 间 段 ,访问 页 面 的 不 同 的 了 P 个 
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数 的 总 和 。 其 中 同一 个 卫 无 论 访问 几 个 页 面 ， 独 立 IP 数 均 算 作 1 个 。 所 以 ， 只 需要 统计 日 志 中 处 
理 的 不 同 的 他 个 数 ， 执行 的 Hive 命令 如 下 : 
































JOHUINDR Hive 数据 表 

hive>drop table t log ip ; 

Hipp Hive 数据 表 

hive»create table t log ip as select count (distinct ip) as IP fromt log  ; 
#### 查 询 Hive 表 数 据 


hive>select * from t log ip ; 


353805 | 将 所 有 的 统计 指标 存放 到 1 张 汇总 的 表 中 。 借 助 1 张 汇总 表 将 统计 得 到 的 结果 整合 
起 来 ，Hive 的 脚本 如 下 : 








### 创 建 统 一 汇总 表 


hive> create table t log all as select time, a.pv, b.reguser, c.ip FROM 


t log pv a JOIN t log ru b ON 1-1 JOIN t log ip c ON 1-1; 
HHAH Hive 表 数 据 
Hive>select * from t log all ; 


执行 此 脚本 的 结果 如 图 18-8 所 示 。 


hive> create table all as select time, a. 
pv, b.reguser, c. t_log_pv a JOIN t_log 








ru b ON 1-1 JOIN t. log. ip c ON 1-1; 
图 18-8 


18.4.4 ”第 四 步 : 使 用 Kettle 把 数据 导入 HBase 


3:901 / 使 用 Firefox 等 浏览 器 ， 进 入 到 大 数据 的 Hadoop 的 开发 环境 ， 确 认 HDFS、HBase 
等 服务 都 是 可 以 正常 使 用 的 ， 如 图 18-9 所 示 。 



























































pon Wars Syasm Wi S TZ Q SY CR EXP ret 
© Home - Cloudera Manager - Mozilla Firefox 

Ele Edi View History Bookmarks Tols Help 

A Restore Session. K | [E Home - Cioudera Manager X | + 

和 [5 11001 75 J EEE OE] 
cloudera ma T nomo cu Mosis Diagnosües - Audie Charts - Administration TE o s: 





festus — Oi Hoam issues 





Status G- Charts som ih zn eh s e- 


~O Cluster 1 . Enors 
* Unante to issue query: ne Host tontor is noi running 











j a * Cluster 1 
mæ a Cluster CPU Cluster Disk 10 
$n 日 
en 
kk 
=. a 
à g- Cluster Network 10. 
^ p 
日 
z 
EK ES (rootéhdeop.- wmm a 


图 18-9 


228 | Cloudera Hadoop 大 数据 平台 实战 指南 


























数 的 总 和 。 其 中 同一 个 卫 无 论 访问 几 个 页 面 ， 独 立 IP 数 均 算 作 1 个 。 所 以 ， 只 需要 统计 日 志 中 处 
理 的 不 同 的 他 个 数 ， 执行 的 Hive 命令 如 下 : 
































JOHUINDR Hive 数据 表 

hive>drop table t log ip ; 

Hipp Hive 数据 表 

hive»create table t log ip as select count (distinct ip) as IP fromt log  ; 
#### 查 询 Hive 表 数 据 


hive>select * from t log ip ; 


353805 | 将 所 有 的 统计 指标 存放 到 1 张 汇总 的 表 中 。 借 助 1 张 汇总 表 将 统计 得 到 的 结果 整合 
起 来 ，Hive 的 脚本 如 下 : 








### 创 建 统 一 汇总 表 


hive> create table t log all as select time, a.pv, b.reguser, c.ip FROM 


t log pv a JOIN t log ru b ON 1-1 JOIN t log ip c ON 1-1; 
HHAH Hive 表 数 据 
Hive>select * from t log all ; 


执行 此 脚本 的 结果 如 图 18-8 所 示 。 


hive> create table all as select time, a. 
pv, b.reguser, c. t_log_pv a JOIN t_log 








ru b ON 1-1 JOIN t. log. ip c ON 1-1; 
图 18-8 


18.4.4 ”第 四 步 : 使 用 Kettle 把 数据 导入 HBase 


3:901 / 使 用 Firefox 等 浏览 器 ， 进 入 到 大 数据 的 Hadoop 的 开发 环境 ， 确 认 HDFS、HBase 
等 服务 都 是 可 以 正常 使 用 的 ， 如 图 18-9 所 示 。 
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festus — Oi Hoam issues 
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执行 的 命令 语句 为 : 
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JHHHBIEAL IJ HBase 的 界面 
hbase shell 
#### 创 建 HBase 的 表 


$hbase» create 't log detail', 'cf'; 





使 用 HBase 存储 详细 的 日 志 数据 , 达到 能 够 利用 TP 和 时 间 进 行 明细 数据 查询 的 目标 。 创建 表 ， 


如 图 18-10 所 示 。 


AUF) WAO FEV SERO DEMO BERG) 工具 (D HAM 帮助 (H) 


3 39 Im 42 29 At, -A A95 253539 988 


W192.168.1.106 x = 8.1.106 (1) 


el(main) 
e(maln) 
ssh2:AES-256-CTR — 5,20 5 行 ,46 列 linux 


图 18-10 





























步骤 02 使 用 FTP TR, {E Kettle 工具 上 传 到 服务 器 ， 如 图 18-11 所 示 。 


SUHA AME BEV 4300) 服务 器 (5) THEE) WAH EMET ! (N) 
CE »N 
APEU: 


5 (用 时 11 HAEA 
yw: 传输 了 5,128,192 + (有 时 7 WEBA 





[pA 
= > D: QD) 
4DECVEI E PIN i hadoop 
tren 








|. System Volume Infor. 


J PyCharm Communit.. Ë data-integration 

Eclipse 46 x64 demotxt 1121 六 
$ RedisDesktopMana. 4 log2018-05-01.bd 2707250 
| ScalaForFclipse4 7.1 log.2018-05-0204 2,705,541 


a EUUEDITITTETI log 2018-05-03txt — 2J704041 


Redis KHR loq 2018-05-04td 2,720,307 


SRT VAR. 
服务 器 /本 地 文件 


< 
列队 的 文件 传输 失败 成功 的 传输 (28) 


图 18-11 














步骤 03 打开 Kettle 这 个 ETL 数据 处 理工 具 ， 新 建 一 个 空 








ETL 是 由 转换 和 作业 组 成 的 ， 转 换 表示 实际 数据 处 理 的 过 
加 、 修 改 等 功能 ， 作 业 大 部 分 是 用 来 定时 调度 转换 处 理 。 


























的 转换 ， 如 图 18-12 所 示 。 
， 比 如 数据 过 滤 、 数 据 组 合 、 增 
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Spoon - Y EE 
IE É 
Perspective Data Inteo ~ 
exu aem 
wr |PTüHDeaP we ga E Kv 








Drag & Drop a Ste 





图 18-12 
步骤 044 从 “Big Data” 菜 单 里 面 拉 1 个 “Hadoop File Input” 组 件 到 设计 区 域 ， 并 进行 编辑 ， 
各 个 属性 的 设置 如 下 。 
Environment 选择 <Static>。 
File/Folder 设置 为 hdfs://root:123456(@127.0.0.1:8020/input_log/demo.txt。 





EX 


Perspective: Dala mteo “ 
`£ Hdfs Etl Hbase 
p-üncens sege Z Ox 


OD Deprecated 

t Input 

t5 Output. 

C5 Joins [ 

E Transtorm Hadoop File Input. 
口 Validation 

口 输入 


D tii 

Swa BSE Hadoop File Input 
D ma SU. Au RRNTT + 

ce 

D tr eene 


t BA Euer ^ ÉmWronment Fie/Fokier 
BEN 1 <Static> ——— hdfs//hadoop:hadoop 8/127 00.19000/techbbs/data/example data log 
tou 
D Ben 
cde 
nmt 
+ C Big Data 
Ano Input 
` Cassandra Input 
Cassandra Output 
CouchDb Input 
Í HBase Input 
25 HBase Output 
= HBase Row Decoder 
Hadoop File Input Ex XSAel EmXAXEGS DTRAR-MRENNAE 
i] Hadoop File Output B - : 
Be, MapReduce Input. zo | eno | WO 
i MapReduce Output 





图 18-13 


文件 输入 设置 的 内 容 ， 如 图 18-14 所 示 。 
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Er GRRRES US Vut 





XE CV v^ 
Sr + Insert TAB. 





SEER (printouty? 1] 


HB None ` 





RESA M 
MALARTE Doa crees 
amam, O= 
PEL Unix ` 
Mespm a ` 
TREA o 
deyeutre ems i 
WOMIT 2h CN. ` 
结果 文件 各 
nsa 3 
O Help aco) | suc MMO 
图 18-14 


步骤 054 从 “Big Data” 菜 单 里 面 拉 一 个 “HBase Output” 组 件 到 设计 区 域 里 面 ， 再 进行 属性 
设置 ， 配 置 如 图 18-15 所 示 。 


Hadoop 集群 配置 如 图 18-16 所 示 。 





Step name [ngase Output 





[Configure connection „Create/Edit mappings L 





Hadoop cluster | 127.0.0.1 © |[Edit...|| New...| 








URL to hbase-site.xml |/etc/hbase/conf.cloudera.hbase/hbase-site.xml le Browse... | 
URL to hbase-default.xml [etc /hibase/conf.cloudera.hbase/hbase-site xml le [Browse... 


HBase table name re chbbs detail [v ] [Get table names 


Mapping name [techbbs detail [v | [Get mappings for the specified table | 




















Store mapping info in step meta data m 
Disable write to WAL |j 
Size of write buffer (bytes) [ 











(C nep] Cancel | 





图 18-15 
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Cluster Name: 
[h27.0.0.1 








O Use MapR client 
HDFS 

Hostname: 
127.0.0.1 








Username: 
root 





JobTracker 
Hostname: 








127.0.0.1 





ZooKeeper 
Hostname: Port: 


127.0.0.1 © |2181 


Oozie 




















映射 配置 如 图 18-17 所 示 。 


Step name [HBase Output 


Configure connection [Create/Edit mappings ™ 





HBase table name [techbbs_detail x] [Get table names | 
Mapping name |techbbs detail iv ] 

















Key Column family Column name Type Indexed values 


N 
N 
N 
N 








图 18-17 


SRO 点 击 运行 的 案例 ， 然 后 点 击 > 按钮 ， 运 行 此 转换 ， 如 图 18-18 所 示 。 
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(3t Hdfs Ft Hhase = 
b v lI Den BR S 100% v 








本 地 ,远程 或 集群 方式 执行 

图 本 地 执行 The transformation will run on the machine you are usin 
远程 执行 
SEBETTH bas 


细节 


[V| Clear log before rui 日 志 级 别 Bb s ES 
启用 安全 模式 
Gather performance m 





























Description 

















[V] Always show dialog on run 








| O Help. | 取消 (OO 
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步骤 07 查看 运行 结果 ， 如 图 18-19 所 示 。 
P-uiDenPXeH&aNH[wv 
e 


文本 文件 输出 











Hadoop File Input 


Execution Results ux 
(© Execution History [E] Logging Step Metrics |[2 Performance Graph [ Metrics db Preview data. 
om o 


¿Vora 17.00.2* " nuia Lu rase - urpatuimy scarceu ir ua son iriuis cu rvese] 
2018/02/11 19:08:24 - cfgbuilder - Warning: The configuration parameter [org] is not supported by the default configuration builder for scheme: sftp 
2018/02/11 19:08:25 - Hadoop File Input.0 - Opening file: hdfs://rcot:***Q127.0.0.1:8020/techbbs/data/example data.log 

2018/02/11 19:08:25 - Hadoop File input.0 - Finished processing (I=10, O-0, R=0, W-20, U=1, E-0) 

2018/02/11 19:08:25 - HBase Output .0 - Connecting to HBase... 

2018/02/11 19:08:25 - 文本 文件 输出 .0 - Finished processing (1-0, O11, R=10, W=10, U=0, E=0) 

2018/02/11 19:08:25 - HBase Output.0 - Retrieving mapping details for target table 

2018/02/11 19:08:25 - HBase Output 0 - Connecting to target table... 











.0 - Closing connection 
.0 - Finished processing 
2018/02/11 19:08:25 - Spoon - The transformation has finished! 
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步骤 084 查看 结果 数据 是 否 是 正确 的 ， 运 行 下 面 的 命令 : 
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$hbase» scan 't log detail'; 


查看 运行 结果 ， 如 图 18-20 所 示 。 


XHA REE 查看 (V) HMO 传输 (T) 脚本 (5) TEQ) EDI 帮助 (H) 
|2o4579535935 em 





18.4.5 ”第 五 步 : 使 用 Sqoop 把 数据 导入 MySQL 


#8014 使 用 SSH 工具 ， 远 程 连接 到 Linux 环境 ， 输 入 IP 地 址 、 用 户 、 密 码 ， 再 点 圭 
图 标 .出 ,， 如 图 18-21 所 示 。 























接 


pH 
































XH | 编辑 (5) EAV SAO FAD KIEG LE(D SOW HAH 
E*ESIPESP Ak haus m2 t om ü 


192.168.1.106 |w 192.168.1.106 (1) |+ 192.168.1.106 (2) x 





ot@hadoop 


hadoop ~ 
@hadoop ~]# v 
m ssh2: AES-256-CTR 5, 18 5 行 ,46 列 Linux 5 gk 


图 1821 


3:902 /. 输入 下 面 的 命令 ， 再 输入 密码 为 “MySQL”， 按 回 车 键 ， 即 可 进入 数据 库 ， 肢 本 如 下 : 

















登录 到 MySQL 的 客户 端 界面 ， 如 图 18-22 所 示 。 


[root@hadoop 
Enter password: Š F 
o the MySQL monitor. Commands end wit 


Your MySQL connection id is 13 ° ⁄ 
er version: 5.6.29 MySQL Community Server ( 


Copyright (c) 2000, 2016, Oracle and/or its aff 
iliates. All rights reserved. 


Oracle is a registered trademark of Oracle Corp 

oration and/or its 

affiliates. Other names may be trademarks of th 
ir respective 

owners. 


Type 'hel or 'Nh' for help. Type 'Nc' to cle 


ar the current input statement. 


mysq1> 





图 18-22 
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DROZ 创建 一 个 新 的 数据 库 ， 执 行 命令 : 


# 创 建 数据 库 脚本 
CREATE DATABASE log; 
S5m04/ 创建 一 张 数据 汇总 表 ， 执 行 命令 : 


# 创 建 表 ， 包 括 时 间 、 浏 览 总 数量 、 注 册 用 户 数 、IP 总 数 等 

DROP TABLE IF EXISTS t log all; 

CREATE TABLE t log all ( 
`time` VARCHAR (20) NOT NULL COMMENT ' 日 期 '， 
^pv num" INT (20) DEFAULT NULL COMMENT ' 浏 览 总 数量 '， 
"user num? INT (20) DEFAULT NULL COMMENT ' 注 册 用 户 数 '， 
^ip num? INT (20) DEFAULT NULL COMMENT 'IP #⁄', 
PRIMARY KEY (^time') 

) ENGINE - INNODB DEFAULT CHARSET - utf8; 


执行 后 的 结果 如 图 18-23 所 示 。 




















XD MRO 格式 (0) 查看 V) SOW MH 
bi Eet cem heus Mar om Her Wee 


TAUPUA fried 


1 DROP TABLE IF EXISTS t log all; 

2 EICREATE TABLE t log all ( 

3 'time' VARCHAR (20) NOT NULL COMMENT ' 日 期 '， 

a "pv num' INT (20) DEFAULT NULL COMMENT 'Pi1 GE, 
5 "user num' INT (20) DEFAULT NULL COMMENT ' 注 册 用 户 数 '， 
6 "ip num' INT (20) DEFAULT NULL COMMENT 'IPÉÉ', 

7| PRIMARY KEY (^time') 
日 ) ENGINE - INNODB DEFAULT CHARSET = utfó; 


信息 qum [us 

[SQL] DROP TABLE IF EXIST t log all; 
SMMD: 0 

时 间 : 0.0015 


[SQL] 

CREATE TABLE t log. all ( 
"time" VARCHAR (20) NOT NULL COMMENT 'RER', 
"py. num" INT (20) DEFAULT NULL COMMENT PETSA, 
"user. num' INT (20) DEFAULT NULL COMMENT 注册 用 户 数 , 
"ip. num" INT (20) DEFAULT NULL COMMENT "IPX, 
PRIMARY KEY (time) 

) ENGINE = INNODB DEFAULT CHARSET = utí8; 























RAMT: 0 
时 间 : 0.037s 
查询 时 间 : 0.0385 
图 18-23 
步 最 054 把 用 Hive 产生 的 表 , 导出 到 MySQL 里 面 , 如 图 18-24 所 示 , 导出 的 执行 脚本 如 下 : 





#### 导 出 脚本 

$sqoop export --connect jdbc:mysql://localhost:3306/log --username root 
--password mysql --table t log all --export-dir 
/user/Hive/warehouse/t log all/part-m-00000 --input-fields-terminated-by 
'N0001" 

dHHHHEXC iXHffj--export-dir 是 指定 的 Hive 目录 下 的 表 所 在 位 置 
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506 / 使 用 Navicat for MySQL 数据 库 的 客户 端 工具 ,连接 到 远程 服务 器 的 MySQL 数据 库 ， 























可 以 查看 到 运行 结果 后 的 数据 ， 输 入 远程 IP 地址、 用户、 密码， 点击“ 登录 ”按钮 ， 查 询 的 结果 如 
图 18-25 所 示 。 


文件 C = eO — 帮助 
E sans B Sims 了 mtns 


time pv_num user num 


20180501 380 


20180502 
20180503 400 


EEE 


d qp Pn $ — — Ceo m^: 
UPDATE t tech bbs : 28 4 条 记录 @t 4 $9 + 1 T 


图 18-25 





18.4.6 ”第 六 步 : 编写 Python 程序 实现 可 视 化 





步骤 01 打开 Pycharm 代码 编辑 器 ， 并 新 建 一 个 工程 ， 如 图 18-26 所 示 。 


Create 





图 18-26 
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3:02 / 安装 MySQL f), fE Pycharm 主页 面 点 击 File， 选 择 Settings， 进 入 设置 项 ， 在 设置 页 输 


入 Project 1， 查找 Project Interpreter， 找 到 pymysql， 双 击 ， 























点 击 Install Package 按钮 ， 如 图 














18-27 所 示 。 





Q” Project 


Plugins 


Y Version Control 


Y Project: Project 1 
Project Interpreter 
Project Structure 
v Build, Execution, Deployment 
Y Console 
Python Console 
Y Tools 


Terminal 


Settings 
Project: Project 1 ) Project Interpreter 


ject Interpreter 


mysql-connector-c 
mysql-connector-python 
mysql-python 
mysqlclient 


pymysal 


Install Package 


图 18-27 


d Python 3.6 (Proje 


Descriptio: 


Specify version 


Options 


Manage Rep: 


Cancel 





35803 / 新 建 一 个 .py 的 程序 ， 取 名 为 Draw MySQL, WE 18-28 所 示 。 


g 

File Edit View 

Ba Project 1 

E Project ~ 
Project 1 


lilli External Libraries 


EP Scratches and Consoles 


installe 


Navigate 


Project_1 [DAPyCharm Community EditionlprojectVProject. 1] 


Code Refactor Run 


Name: | Draw MySQL 


Kind: — fe Python file 


Tools VCS Window 


Help 





ges: pymysql (2 minutes a 


图 1828 


PyCharm - 0 
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Python 的 代码 如 下 : 


print ("开始 ...") 
import pymysql 
import plotly.plotly 
import plotly.graph objs as pg 
print ("REA mysql 数据 库 的 链接 ") 
conn = 
pymysql.Connection(host-"localhost",port-3306,user-"root",passwd-"MySQL",db 
-"techbbs",charset-"utf8") 
cur = conn.cursor (pymysql.cursors.DictCursor) 
print ("设置 要 查询 的 表 数 据 ") 
cur.execute("select * from t tech bbs sum") 
rows = cur.fetchall() 
print ("申明 1ist 数据 集 ") 
lists = [[], D, U, (1 
for row in rows: 
lists[0].append (row["date"]) 
lists[1].append (row["pv"]) 
lists[2].append (row["newer"]) 
lists[3].append (row["ip"]) 
print (" 打 印 数据 : ") 
print (lists) 
date pv = pg.Bar(x=lists[0]，Yy=lists[1]，name=' 网 页 浏览 量 ') 
date newer = pg.Bar (x=lists[0]，y=lists[2]，name=' 注 册 用 户 数 ') 








date ip = pg.Bar(x-lists[0], y-lists[3], name-'IP 9t) 

data draw - [date pv, date newer, date ip] 

layout = pg.Layout (barmode='group'，tit1le=" 各 个 时 间 段 网 站 日 志 分 析 信息 ") 
fig = pg.Figure(data-data draw, layout-layout) 

print (" 输 出 画图 文件 ") 

plotly.offline.plot(fig, filename-"D:/test.html") 

print("ZiW...") 








#m04/ 保存 代码 。 


184.7 最 后 一 步 : 执行 Python 程序 


步骤 01 打开 Pycharm 工具 ， 右 击 执行 代码 ， 如 图 18-29 所 示 。 


第 18 章 ”大 数据 实战 案例 : 用 户 日 志 综合 分 析 项 239 


Draw 


Ctrls Alt + Shift + C 
trl+V 

Ctrl Shift V 
Ctrl+Al +V 


AltsShift-Insert 
Find U° AIGFZ 
Ref , 


» 


Ctri+Shift+F10 


Run File in € 


with Clipboard 





图 18-29 





图 18-30 








5803/ 运行 程序 后 ， 会 产生 HTML 文件 ， 如 图 18-31 所 示 。 
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= v 计算 机 ， 新 加 卷 (D3) 











名 称 类 型 大 小 
e test.html Chrome HTML Do... 2,672 KB 
1831 


304 / 打开 此 HTML 文件 ,结果 如 图 18-32 所 示 。 此 图 中 ， 横 轴 表 示 日 期 ， 纵 轴 表示 各 种 
指标 数据 。 





a e + 
各 个 时 间 段 网 站 日 志 分 析 信息 


€J a= m Rum 
B nues 


m iP 


FERREA, 


IP# 
20.170601M "t 20.170603M 20.170604M 


Export to plol.ly » 





图 18-32 


